使用 Amazon SageMaker HyperPod 和 Anyscale 实现下一代分布式计算

在这篇文章中,我们演示了如何将 Amazon SageMaker HyperPod 与 Anyscale 平台集成,以解决构建和部署大规模 AI 模型时的关键基础设施挑战。该组合解决方案通过高性能硬件、持续监控以及与领先的 AI 计算引擎 Ray 的无缝集成,为分布式 AI 工作负载提供强大的基础设施,使组织能够缩短上市时间并降低总体拥有成本。

来源:亚马逊云科技 _机器学习
本文由来自 Anyscale 的 Dominic Catalano 撰写。构建和部署大规模 AI 模型的组织经常面临可能直接影响其利润的关键基础设施挑战:不稳定的训练集群会在工作中失败、资源利用率低下导致成本上升,以及需要专业知识的复杂分布式计算框架。这些因素可能会导致 GPU 时间未使用、项目延迟以及数据科学团队感到沮丧。本文演示了如何通过为分布式 AI 工作负载提供弹性、高效的基础设施来应对这些挑战。Amazon SageMaker HyperPod 是专门构建的持久生成式 AI 基础设施,针对机器学习 (ML) 工作负载进行了优化。它通过高性能硬件为大规模机器学习工作负载提供强大的基础设施,因此组织可以使用数十到数千个 GPU 加速器构建异构集群。通过将节点最佳地集中在单个主干上,SageMaker HyperPod 减少了分布式训练的网络开销。它通过持续监控节点健康状况、自动将故障节点替换为健康节点以及从最近保存的检查点恢复训练来保持运行稳定性,所有这些都可以帮助节省高达 40% 的训练时间。对于高级 ML 用户,SageMaker HyperPod 允许 SSH 访问集群中的节点,从而实现深度基础设施控制,并允许访问 SageMaker 工具,包括 Amazon SageMaker Studio、MLflow 和 SageMaker 分布式训练库,以及对各种开源训练库和框架的支持。 SageMaker 灵活培训计划通过允许提前 8 周保留 GPU 容量,持续时间长达 6 个月来对此进行补充。当使用 Amazon Elastic Kubernetes Service (Amazon EKS) 作为集群编排器时,Anyscale 平台与 SageMaker HyperPod 无缝集成。 Ray 是领先的 AI 计算引擎,提供 Pytho