使用Amazon Sagemaker Hyperpod

在这篇文章中,我们探讨了大规模边界模型培训的挑战,重点是硬件故障以及亚马逊萨吉式制造商HyperPod的好处 - 一种解决方案,可最大程度地减少干扰,提高效率并降低培训成本。

来源:亚马逊云科技 _机器学习
培训边境模型是高度计算密集型的,需要数百个或数千个的加速实例分布式系统运行数周或几个月才能完成一项工作。例如,预训练Llama 3 70b型号,具有15万亿个训练令牌的训练时间为650万h100 h100 gpu小时。在256个Amazon EC2 P5实例(P5.48xlarge,每个都有8个NVIDIA H100 GPU)上,大约需要132天。分配的培训工作负载以同步方式运行,因为每个培训步骤都要求所有参与的实例在模型升级到下一步之前完成计算。这意味着,如果一个实例失败,它会停止整个工作。随着群集大小的增长,由于涉及的硬件组件的数量,故障的可能性增加。每个硬件故障可能会导致GPU小时浪费,并且需要有价值的工程时间来识别和解决问题,从而使系统容易停机,从而破坏进度并延迟完成。 To assess system reliability, engineering teams often rely on key metrics such as mean time between failures (MTBF), which measures the average operational time between hardware failures and serves as a valuable indicator of system robustness.In this post, we explore the challenges of large-scale frontier model training, focusing on hardware failures and the benefits of Amazon SageMaker HyperPod—a resilient solution that minimizes disruptions, enhances efficiency,并降低了培训成本。确定失败率了解大规模边界模型培训的典型MTBF,它通过审查三个值得注意的例子来首先了解实例失败率:当训练992 A100 GPU上的Opt-175b时,Meta AI遇到了重大硬件可靠性挑战。在两个月的时间里,由于硬件问题,该团队管理了35次手动重新启动,并循环100多个主机,并且自动化系统触发了70多个重新启动。操作124个实例(每个实例都有8