在Amazon Sagemaker Hyperpod上引入自动缩放

在这篇文章中,我们宣布,亚马逊萨吉式超级平台现在支持karpenter的托管节点自动扩展,从而使SageMaker HyperPod簇的有效缩放能够满足推理和培训需求。我们深入研究Karpenter的好处,并提供有关在Sagemaker HyperPod EKS群集中启用和配置Karpenter的详细信息。

来源:亚马逊云科技 _机器学习
今天,我们很高兴地宣布,Amazon Sagemaker Hyperpod现在支持Karpenter的托管节点自动缩放,因此您可以有效地扩展SageMaker HyperPod群集以满足您的推理和培训需求。实时推理工作负载需要自动缩放以解决不可预测的流量模式并维护服务水平协议(SLA)。作为需求尖峰,组织必须在不损害响应时间或成本效益的情况下迅速调整其GPU计算。与自我管理的karpenter部署不同,该服务管理的解决方案减轻了安装,配置和维护karpenter控制器的操作开销,同时又可以与Sagemaker Hyperpod的弹性能力更加紧密地集成。这种托管方法将比例支持为零,从而减少了专用计算资源来运行karpenter控制器本身,从而提高了成本效益。SagemakerHyperpod提供了弹性,高性能基础架构,可观察性,可观察到的,并为大型模型培训和部署提供了优化的工具。像困惑,Hippocraticai,H.AI和Articul8这样的公司已经在使用Sagemaker Hyperpod来培训和部署模型。随着越来越多的客户从培训基金会模型(FMS)过渡到大规模运行推断,他们需要能够自动扩展其GPU节点以通过在高需求时扩展并在较低利用率期间扩展来处理实际生产流量来处理实际生产流量。此功能需要一个功能强大的群集自动缩放器。 Karpenter, an open source Kubernetes node lifecycle manager created by AWS, is a popular choice among Kubernetes users for cluster auto scaling due to its powerful capabilities that optimize scaling times and reduce costs.This launch provides a managed Karpenter-based solution for automatic scaling that is installed and maintained by SageMaker HyperPod, removing the undifferentiated heavy lifting of setup and management from customer