使用训练计划部署具有设定 GPU 容量的 SageMaker AI 推理端点 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用训练计划部署具有设定 GPU 容量的 SageMaker AI 推理端点

2026年3月24日 20:27 33 Comments

在这篇文章中，我们将介绍如何搜索可用的 p 系列 GPU 容量、创建推理训练计划预留以及在该预留容量上部署 SageMaker AI 推理端点。我们跟踪数据科学家的旅程，因为他们保留模型评估的能力并在整个预订生命周期中管理端点。

来源:亚马逊云科技 _机器学习

部署大型语言模型 (LLM) 进行推理需要可靠的 GPU 容量，尤其是在关键评估期、有限持续生产测试或突发工作负载期间。容量限制可能会延迟部署并影响应用程序性能。客户可以使用 Amazon SageMaker AI 培训计划来预留指定时间段的计算容量。训练计划最初是为训练工作负载而设计的，现在支持推理端点，为有时限的推理工作负载提供可预测的 GPU 可用性。

考虑一个常见的场景：您所在的数据科学团队必须在两周内评估多个经过微调的语言模型，然后再选择一个进行生产。他们需要不间断地访问 ml.p5.48xlarge 实例来运行比较基准，但其 AWS 区域的按需容量在高峰时段是不可预测的。通过培训计划保留能力，他们可以不间断地进行评估，并控制成本和可预测的可用性。

Amazon SageMaker AI 培训计划提供了一种灵活的方法来确保容量，以便您可以搜索可用的产品，选择符合您需求的实例类型、数量和持续时间。客户可以选择未来的固定天数或月数，或连续指定的天数来创建预订。创建后，训练计划提供了一组容量，可供部署 SageMaker AI 推理端点时参考。

解决方案概述

培训计划创建和使用工作流程由四个关键阶段组成：

让我们通过详细示例来逐步了解每个阶段。

先决条件

培训可靠的时间段评估的持续时间选择可预测的创建控制成本区域的部署计划科学家 GPU 端点设计的实例未来的推理训练计划有时限的应用程序灵活的生命周期先决条件工作负载跟踪数据可用性指定的可用的容量预留 AI SageMaker