在 SageMaker HyperPod 中实现登录节点负载平衡以增强多用户体验

在本文中,我们探讨了在基于 Slurm 的 HyperPod 集群中跨登录节点实现负载平衡的解决方案。通过在所有可用节点上均匀分布用户活动,这种方法为所有用户提供了更一致的性能、更好的资源利用率和更流畅的体验。我们将指导您完成设置过程,并提供在 HyperPod 集群中实现有效负载平衡的实用步骤。

来源:亚马逊云科技 _机器学习

Amazon SageMaker HyperPod 旨在支持大规模机器学习 (ML) 操作,为长期训练基础模型 (FM) 提供强大的环境。多个用户(例如 ML 研究人员、软件工程师、数据科学家和集群管理员)可以同时在同一个集群上工作,每个用户管理自己的作业和文件而不会干扰其他用户。

Amazon SageMaker HyperPod

使用 HyperPod 时,您可以使用熟悉的编排选项,例如 Slurm 或 Amazon Elastic Kubernetes Service (Amazon EKS)。本博客文章特别适用于使用 Slurm 作为编排器的 HyperPod 集群。在这些集群中,登录节点的概念是可用的,集群管理员可以添加这些节点以方便用户访问。这些登录节点充当用户与集群的计算资源交互的入口点。通过使用登录节点,用户可以将他们的交互活动(例如浏览文件、提交作业和编译代码)与集群的头节点分开。这种分离有助于防止任何单个用户的活动影响集群的整体性能。

Amazon Elastic Kubernetes Service

但是,尽管 HyperPod 提供了使用登录节点的功能,但它没有提供在这些节点之间平衡用户活动的集成机制。 因此,用户手动选择登录节点,这可能导致不平衡,即某些节点过度使用而其他节点未得到充分利用。 这不仅影响资源使用效率,还会导致不同用户的性能体验不均衡。

解决方案概述

AWS Systems Manager

鉴于 HyperPod 通常使用私有子网部署在虚拟私有云 (VPC) 中,因此直接 SSH 访问登录节点需要与私有子网建立安全的网络连接。有几种方法可以实现此目的:

AWS Site-to-Site VPN AWS Site-to-Site VPN AWS Direct Connect AWS Direct Connect 搜索 22