详细内容或原文请订阅后点击阅览
用于在 SageMaker HyperPod 上进行弹性训练的基础模型训练的自适应基础设施
Amazon SageMaker HyperPod 现在支持弹性训练,使您的机器学习 (ML) 工作负载能够根据资源可用性自动扩展。在这篇文章中,我们将演示弹性训练如何帮助您最大限度地提高 GPU 利用率、降低成本并通过动态资源适应加速模型开发,同时保持训练质量并最大限度地减少手动干预。
来源:亚马逊云科技 _机器学习现代人工智能基础设施在同一集群上为多个并发工作负载提供服务,从基础模型 (FM) 预训练和微调到生产推理和评估。在这种共享环境中,随着推理工作负载随着流量模式的变化以及实验的完成和资源的释放,对人工智能加速器的需求不断波动。尽管人工智能加速器具有动态可用性,但传统训练工作负载仍然锁定在其初始计算分配中,无法在没有人工干预的情况下利用空闲计算能力。
Amazon SageMaker HyperPod 现在支持弹性训练,使您的机器学习 (ML) 工作负载能够根据资源可用性自动扩展。在这篇文章中,我们将演示弹性训练如何帮助您最大限度地提高 GPU 利用率、降低成本并通过动态资源适应加速模型开发,同时保持训练质量并最大限度地减少手动干预。
静态分配如何影响基础设施利用率
考虑运行训练和推理工作负载的 256 GPU 集群。晚上非高峰时段,推理可能会释放96个GPU。这使得 96 个 GPU 闲置并可用于加速训练。传统的培训工作以固定规模进行;此类作业无法吸收闲置的计算能力。因此,从 32 个 GPU 开始的单个训练作业在此初始配置下被锁定,而另外 96 个 GPU 保持空闲状态;这意味着每天浪费 2,304 个 GPU 小时,相当于每天在未充分利用的基础设施投资上花费数千美元。随着集群规模的扩大,问题变得更加复杂。
解决方案概述
弹性训练扩展事件工作流程
弹性训练入门
在以下部分中,我们将指导您在 SageMaker HyperPod 上设置和配置弹性训练。
