在 Amazon SageMaker HyperPod 上运行推理的最佳实践

本文探讨了 Amazon SageMaker HyperPod 如何为推理工作负载提供全面的解决方案。我们将引导您了解该平台的动态扩展、简化部署和智能资源管理的关键功能。在本文结束时,您将了解如何使用 HyperPod 自动化基础设施、成本优化功能和性能增强功能将总拥有成本降低高达 40%,同时加速从概念到生产的生成式 AI 部署。

来源:亚马逊云科技 _机器学习

部署和扩展生成式 AI 推理的基础模型给组织带来了挑战。团队经常面临复杂的基础设施设置、导致过度配置或性能瓶颈的不可预测的流量模式,以及有效管理 GPU 资源的运营开销。这些痛点导致上市时间延迟、模型性能欠佳以及成本过高,从而使人工智能计划无法大规模持续。

本文探讨了 Amazon SageMaker HyperPod 如何通过为推理工作负载提供全面的解决方案来应对这些挑战。我们将引导您了解该平台的动态扩展、简化部署和智能资源管理的关键功能。在本文结束时,您将了解如何使用 HyperPod 自动化基础设施、成本优化功能和性能增强功能将总拥有成本降低高达 40%,同时加速从概念到生产的生成式 AI 部署。

集群创建-一键部署

要使用 Amazon Elastic Kubernetes Service (Amazon EKS) 编排创建 HyperPod 集群,请导航到 Amazon SageMaker AI 控制台中的 SageMaker HyperPod 集群页面。

第 1 步:

选择创建 HyperPod 集群。然后,选择由 Amazon EKS 编排选项。

步骤 2

选择快速设置或自定义设置选项。快速设置选项创建默认资源,而自定义设置选项允许您与现有资源集成或自定义配置以满足您的特定需求。

步骤 3

以下是 Kubernetes 控制器和附加组件。可以启用或禁用这些控制器和附加组件。

步骤 4

下图显示了带有 Amazon EKS Orchestrator 控制平面的 SageMaker HyperPod 的高级架构。

部署选项

使用 Karpenter 自动缩放

使用 KEDA 和 Karpenter 进行精细的自动缩放

了解 Auto Scaling 架构

KEDA 和 Karpenter 如何合作