详细内容或原文请订阅后点击阅览
使用训练计划部署具有设定 GPU 容量的 SageMaker AI 推理端点
在这篇文章中,我们将介绍如何搜索可用的 p 系列 GPU 容量、创建推理训练计划预留以及在该预留容量上部署 SageMaker AI 推理端点。我们跟踪数据科学家的旅程,因为他们保留模型评估的能力并在整个预订生命周期中管理端点。
来源:亚马逊云科技 _机器学习部署大型语言模型 (LLM) 进行推理需要可靠的 GPU 容量,尤其是在关键评估期、有限持续生产测试或突发工作负载期间。容量限制可能会延迟部署并影响应用程序性能。客户可以使用 Amazon SageMaker AI 培训计划来预留指定时间段的计算容量。训练计划最初是为训练工作负载而设计的,现在支持推理端点,为有时限的推理工作负载提供可预测的 GPU 可用性。
考虑一个常见的场景:您所在的数据科学团队必须在两周内评估多个经过微调的语言模型,然后再选择一个进行生产。他们需要不间断地访问 ml.p5.48xlarge 实例来运行比较基准,但其 AWS 区域的按需容量在高峰时段是不可预测的。通过培训计划保留能力,他们可以不间断地进行评估,并控制成本和可预测的可用性。
Amazon SageMaker AI 培训计划提供了一种灵活的方法来确保容量,以便您可以搜索可用的产品,选择符合您需求的实例类型、数量和持续时间。客户可以选择未来的固定天数或月数,或连续指定的天数来创建预订。创建后,训练计划提供了一组容量,可供部署 SageMaker AI 推理端点时参考。
在这篇文章中,我们将介绍如何搜索可用的 p 系列 GPU 容量、创建推理训练计划预留以及在该预留容量上部署 SageMaker AI 推理端点。我们跟踪数据科学家的旅程,因为他们保留模型评估的能力并在整个预订生命周期中管理端点。
解决方案概述
培训计划创建和使用工作流程由四个关键阶段组成:
让我们通过详细示例来逐步了解每个阶段。
