容量感知推理：SageMaker AI 端点的自动实例回退 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

容量感知推理：SageMaker AI 端点的自动实例回退

2026年5月4日 16:05 33 Comments

今天，Amazon SageMaker AI 为新的和现有的推理终端节点引入了容量感知实例池。您定义实例类型的优先级列表，只要在创建、横向扩展和横向收缩期间容量受到限制，SageMaker AI 就会自动处理您的列表。您的端点无需人工干预即可配置可用的人工智能基础设施。此功能适用于单模型端点、基于推理组件的端点和异步推理端点。

来源:亚马逊云科技 _机器学习

随着组织在生产中扩展生成式 AI 工作负载，确保可靠的 GPU 计算已成为最持久的运营挑战之一。大型语言模型 (LLM) 和多模式架构需要特定的实例类型，当该容量不可用时，端点在服务单个请求之前就会失败。

在 Amazon SageMaker AI 上构建实时推理终端节点意味着在创建时致力于单一实例类型。当该类型容量不足时，端点无法达到运行状态。您更新了配置，选择了不同的实例类型，然后重试重复该循环，直到预配尝试成功。

本文将介绍实例池的工作原理以及如何开始使用，无论您是要创建新端点还是迁移现有端点。

问题

当您将模型部署到 SageMaker AI 推理终端节点（无论是实时还是异步）时，您可以指定单个实例类型。如果该类型没有可用容量，则端点无法创建。此限制出现在端点生命周期的每个阶段。

端点创建因容量而失败。当您的首选实例类型不可用时，SageMaker AI 将返回容量不足错误。到达正在运行的端点需要手动迭代替代方案，每次尝试都会花费大量时间才能知道结果。

工作原理：基于优先级的实例池

在混合队列上自动扩展

徐登

可靠的人工智能不同的类型运行状态模型创建意味着基础设施运行的周期的节点持久的端点特定的致力于实例推理当该生命周期横向收缩工作负载终端多模式可用容量扩展人工干预端节点可用的容量 SageMaker AI 现有的替代方案工作原理