用Amazon Sagemaker Hyperpod支持P6E-GB200 Ultraservers

在这篇文章中,我们回顾了P6E-GB200 Ultraservers的技术规格,讨论其性能优势,并突出关键用例。然后,我们走过如何通过灵活的培训计划购买超声处理能力,并开始使用带有Sagemaker Hyperpod的Ultraservers。

来源:亚马逊云科技 _机器学习
想象一下,在单个系统中利用72个尖端NVIDIA Blackwell GPU的功率,用于下一步的AI创新,解锁360个PETAFLOPS的密集8位浮点(FP8)和1.4稀疏的4位浮点(FP4)的功能。如今,这正是亚马逊萨吉人Hyperpod在推出P6E-GB200 Ultraservers的支持下提供的。由NVIDIA GB200 NVL72加速,P6E-GB200 Ultraservers提供行业领先的GPU性能,网络吞吐量和内存,用于开发和部署数万亿参数AI模型。通过无缝将这些超声处理者与萨吉式制造商的分布式培训环境相结合,组织可以快速扩展模型开发,减少停机时间,并简化从训练到大规模部署的过渡。借助Sagemaker Hyperpod的自动化,弹性和高度可扩展的机器学习基础架构,组织可以在数千个加速器上无缝分配大量的AI工作负载,并以前所未有的效率来管理端到端的模型开发。使用P6E-GB200 Ultraservers使用SageMaker Hyperpod标志着向更快,更具弹性和具有成本效益的培训和部署进行最先进的生成AI模型的关键转变。在这篇文章中,我们回顾了P6E-GB200 Ultraservers的技术规格,讨论其性能效益,并讨论其绩效益处,并强调键化较大的用途。然后,我们走过如何通过灵活的培训计划购买超声处理能力,并开始使用SageMaker Hyperpod。inside Ultraserverp6e-GB200 Ultraservers由NVIDIA GB200 NVL72加速,将36 NVIDIA GRACE™CPU和72 BlackWell Gpus连接到同一Nvidia nvidia nvidia nvidia。每个ML.P6E-GB200.36xlarge在超声波中计算节点包括两个Nvidia GB200 Grace Blackwell Superchips,每台连接了两个高性能NVIDIA Blackwell GPU和一个基于ARM的NVIDIA GRACE CPU与NVIDIA NVIDIA NVLINK CHIP-CHIP-CHIP-CHIP-CHIP(C2)