大规模为创新提供动力:AWS如何应对AI基础设施挑战

随着生成性AI的发展继续改变企业的运作方式并开发净创新,基础设施对培训和部署AI模型的需求已成倍增长。传统的基础设施方法正在努力与当今的计算要求,网络需求以及现代AI工作负载的弹性需求保持同步。在AWS,我们还看到了整个技术的转变[…]

来源:亚马逊云科技 _机器学习
随着生成性AI的发展继续改变企业的运作方式并开发净创新,基础设施对培训和部署AI模型的需求已成倍增长。传统的基础设施方法正在努力与当今的计算需求,网络需求以及现代AI工作负载的弹性需求保持同步。在AWS上,随着组织从实验性AI项目转变为大规模生产部署,我们还看到了整个技术景观的转变。这种转变要求基础架构可以在保持安全性,可靠性和成本效益的同时提供前所未有的绩效。这就是为什么我们在网络创新,专门计算资源以及专门为AI工作负载设计的弹性基础架构上进行的大量投资。加速模型实验和与Sagemaker AITHE Gateway通往我们AI基础架构策略的培训是Amazon Sagemaker AI,它是Amazon Sagemaker AI,它是Amazon Sagemaker AI,它是Amazon Sagemaker AI,它为型号的工具和工具提供了熟悉的工具和工艺的培养和熟练的培训。我们在这一领域的主要创新之一是亚马逊萨司制造商Hyperpod,它消除了构建和优化AI基础架构所涉及的未分化的繁重繁重。其核心,Sagemaker Hyperpod代表了范式的转变,这是通过对传统的对原始计算能力的强调而超越智能和适应性资源管理的范围。它具有先进的弹性能力,因此群集可以自动从整个堆栈中的模型培训失败中恢复,同时自动将培训工作负载分开,以进行并行处理。基础设施可靠性对培训效率的影响很大。例如,在16,000片群集中,每日节点故障率每0.1%都会提高群集的生产率4.2% - 转移至16,000 H100 GPU