详细内容或原文请订阅后点击阅览
容量感知推理:SageMaker AI 端点的自动实例回退
今天,Amazon SageMaker AI 为新的和现有的推理终端节点引入了容量感知实例池。您定义实例类型的优先级列表,只要在创建、横向扩展和横向收缩期间容量受到限制,SageMaker AI 就会自动处理您的列表。您的端点无需人工干预即可配置可用的人工智能基础设施。此功能适用于单模型端点、基于推理组件的端点和异步推理端点。
来源:亚马逊云科技 _机器学习随着组织在生产中扩展生成式 AI 工作负载,确保可靠的 GPU 计算已成为最持久的运营挑战之一。大型语言模型 (LLM) 和多模式架构需要特定的实例类型,当该容量不可用时,端点在服务单个请求之前就会失败。
在 Amazon SageMaker AI 上构建实时推理终端节点意味着在创建时致力于单一实例类型。当该类型容量不足时,端点无法达到运行状态。您更新了配置,选择了不同的实例类型,然后重试重复该循环,直到预配尝试成功。
今天,Amazon SageMaker AI 为新的和现有的推理终端节点引入了容量感知实例池。您定义实例类型的优先级列表,只要在创建、横向扩展和横向收缩期间容量受到限制,SageMaker AI 就会自动处理您的列表。您的端点无需人工干预即可配置可用的人工智能基础设施。此功能适用于单模型端点、基于推理组件的端点和异步推理端点。
本文将介绍实例池的工作原理以及如何开始使用,无论您是要创建新端点还是迁移现有端点。
问题
当您将模型部署到 SageMaker AI 推理终端节点(无论是实时还是异步)时,您可以指定单个实例类型。如果该类型没有可用容量,则端点无法创建。此限制出现在端点生命周期的每个阶段。
端点创建因容量而失败。当您的首选实例类型不可用时,SageMaker AI 将返回容量不足错误。到达正在运行的端点需要手动迭代替代方案,每次尝试都会花费大量时间才能知道结果。
