使用新的HyperPod CLI和SDK

在这篇文章中,我们演示了如何使用新的Amazon Sagemaker HyperPod CLI和SDK来简化通过使用完全碎片数据并行的分布式培训(FSDP)(FSDP)和模型部署进行推理的分布式培训训练和部署大型AI模型的过程。这些工具通过直接命令提供了简化的工作流程,以实现常见任务,同时通过SDK为更复杂的要求提供灵活的开发选项,以及全面的可观察性功能和准备生产的部署功能。

来源:亚马逊云科技 _机器学习
培训和部署大型AI模型需要先进的分布式计算功能,但是对于数据科学家和机器学习(ML)从业人员来说,管理这些分布式系统不应该很复杂。新发布的Amazon Sagemaker HyperPod的命令行接口(CLI)和软件开发套件(SDK)简化了如何使用该服务的分布式培训和推理功能。SageMakerHyperPod CLI为数据科学家提供了直观的命令线体验,从而抽象了分布式系统的基础复杂性。 CLI建立在SageMaker HyperPod SDK之上,为诸如启动培训或微调作业,部署推理端点以及监视群集性能等通用工作流程提供了直接的命令。这使其非常适合快速实验和迭代。对于需要细粒度控制的更高级用例,SageMaker HyperPod SDK启用程序化访问来自定义ML工作流。开发人员可以使用SDK的Python界面来精确配置培训和部署参数,同时保持与熟悉的Python对象合作的简单性。在这篇文章中,我们演示了如何在Sagemaker Hyperpod上使用CLI和SDK来训练和部署大型语言模型(LLMS)。 We walk through practical examples of distributed training using Fully Sharded Data Parallel (FSDP) and model deployment for inference, showcasing how these tools streamline the development of production-ready generative AI applications.PrerequisitesTo follow the examples in this post, you must have the following prerequisites:Because the use cases that we demonstrate are about training and deploying LLMs with the SageMaker HyperPod CLI and SDK, you must also install集群中的以下Kubernetes运算符:安装SageMaker HyperPod Clifirst,您必须安装最新版本的SageMaker HyperPod CLI和SDK(本文中的示例基于版本3.1.0