使用Amazon Sagemaker Hyperpod任务治理

在这篇文章中,我们通过提交代表层次网络信息的作业来介绍使用SageMaker HyperPod任务治理的拓扑感知调度。我们提供有关如何使用SageMaker HyperPod任务治理来优化您的工作效率的详细信息。

来源:亚马逊云科技 _机器学习
今天,我们很高兴宣布Amazon Sagemaker HyperPod任务治理的新功能,以帮助您优化AI工作负载的培训效率和网络延迟。 Sagemaker HyperPod任务治理简化了资源分配,并促进了在Amazon Elastic Kubernetes服务(Amazon EKS)群集上的团队和项目的有效计算资源利用率。管理员可以控制加速的计算分配和执行任务优先级策略,从而改善资源利用率。这有助于组织专注于加速生成AI创新并减少上市时间,而不是协调资源分配和重新启动任务。有关更多信息,请参阅Amazon Sagemaker HyperPod任务治理的最佳实践。加生的AI工作负载通常要求跨Amazon Elastic Compute Cloud(Amazon EC2)实例进行广泛的网络通信,其中网络带宽会影响工作负载运行时和处理延迟。这些通信的网络延迟取决于数据中心层次基础架构中实例的物理位置。数据中心可以组织成嵌套的组织单元,例如网络节点和节点集,每个网络节点有多个实例和每个节点集的多个网络节点。例如,与不同单位的组织单位相比,在同一组织单元中的实例经验更快。这意味着在实例之间更少的网络啤酒花会导致较低的通信。要通过考虑资源的物理和逻辑安排来优化生成AI工作负载在您的SageMaker HyperPod群集中,则可以在工作期间使用EC2网络拓扑信息。 EC2实例的拓扑由一组节点描述,网络的每个层中都有一个节点。请参阅Amazon EC2实例拓扑的工作方式,以了解如何安排EC2拓扑。网络拓扑标签提供以下密钥B