使用 Amazon SageMaker Studio 和 Amazon SageMaker HyperPod 扩展 ML 工作流

Amazon SageMaker Studio 和 Amazon SageMaker HyperPod 的集成提供了一种简化的解决方案,为数据科学家和 ML 工程师提供了一个全面的环境,支持从开发到大规模部署的整个 ML 生命周期。在这篇文章中,我们将引导您完成使用 SageMaker Studio 和 SageMaker HyperPod 扩展 ML 工作负载的过程。

来源:亚马逊云科技 _机器学习

将机器学习 (ML) 工作流从初始原型扩展到大规模生产部署可能是一项艰巨的任务,但 Amazon SageMaker Studio 和 Amazon SageMaker HyperPod 的集成为这一挑战提供了简化的解决方案。随着团队从概念验证发展到可用于生产的模型,他们经常难以有效管理不断增长的基础设施和存储需求。此集成通过为数据科学家和 ML 工程师提供一个全面的环境来解决这些障碍,该环境支持整个 ML 生命周期,从开发到大规模部署。

Amazon SageMaker Studio Amazon SageMaker HyperPod

在本文中,我们将引导您完成使用 SageMaker Studio 和 SageMaker HyperPod 扩展 ML 工作负载的过程。

解决方案概述

实施解决方案包括以下高级步骤:

  • 在 SageMaker Studio 中设置您的环境和访问 Amazon HyperPod 集群的权限。
  • 创建 JupyterLab 空间并将 Amazon FSx for Lustre 文件系统挂载到您的空间。这样就无需在扩展时进行数据迁移或代码更改。这还可以缓解模型开发不同阶段的数据差异经常导致的潜在可重复性问题。
  • Amazon FSx for Lustre
  • 您现在可以使用 SageMaker Studio 发现 SageMaker HyperPod 集群,并查看集群详细信息和指标。当您可以访问多个集群时,这些信息可以帮助您比较每个集群的规格、当前利用率和集群的队列状态,以确定满足特定 ML 任务要求的集群。
  • 我们使用示例笔记本来展示如何连接到集群并在 Slurm 集群上使用 PyTorch FSDP 运行 Meta Llama 2 训练作业。
  • 先决条件

    完成以下先决条件步骤:

  • 创建 SageMaker HyperPod Slurm 集群。有关说明,请参阅 Amazon SageMaker HyperPod 研讨会或教程,了解如何开始使用 SageMaker HyperPod。