在 Amazon SageMaker HyperPod 中引入 Amazon EKS 支持
这篇文章专为 Kubernetes 集群管理员和 ML 科学家设计,概述了 SageMaker HyperPod 引入的关键功能,以促进在 EKS 集群上进行大规模模型训练。
来源:亚马逊云科技 _机器学习我们很高兴在Amazon Sagemaker Hyperpod上引入Amazon Elastic Kubernetes服务(Amazon EKS)支持,这是一种专门建立的基础架构,该基础架构以弹性为核心。此功能允许使用自动节点和工作弹性功能(FM)开发,无缝添加SageMaker Hyperpod管理的计算到EKS群集。
Amazon Elastic Kubernetes服务 支持亚马逊萨吉式制造商HyperpodFMS通常在具有数百或数千个加速器的大规模计算集群上训练。在这种情况下,硬件故障构成了重大挑战,因为成千上万的加速器故障可以阻止整个训练过程。例如,在16K NVIDIA H100 H100 H100 H100 H100 H100 H100 tensor GPU上进行了54天预培训的Meta Llama经历了419次意外中断,其中78%归因于已确认或怀疑的硬件问题,其中58.7%的中断是GPU相关的问题,包括GPU相关的问题,包括NVLink链接失败和HBM3记忆。
Meta Llama 3 NVIDIA H100张量核心GPU nvlink HBM3内存自成立以来,Sagemaker Hyperpod的设计专注于托管弹性功能,以减轻此类硬件故障,使FM建筑商(例如Thomson Reuters,Cllexity AI)等FM建造者可以扩展FM训练和对Slurm簇的推理。在EXPOD中的EKS支持下,您现在还可以通过使用HyperPod Compute和EKS群集上的Kubernetes控制平面管理机器学习(ML)工作负载来从Kubernetes群集上的弹性功能中受益。
托管弹性功能 汤姆森路透 困惑AI 拥抱脸 slurm簇AI初创公司,例如Observea和Articul8,以及像Thomson Reuters这样的企业使用此新功能设置来管理其ML模型开发生命周期:
observea articul8- observea
- articul8 ai
该职位分为以下三个部分:
SageMaker HyperPod kubernetes cli(kubectl).yaml