Amazon SageMaker AI 端点的增强指标：更深入的可见性以实现更好的性能 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Amazon SageMaker AI 端点的增强指标：更深入的可见性以实现更好的性能

2026年3月19日 14:32 33 Comments

SageMaker AI 端点现在支持具有可配置发布频率的增强指标。此次发布提供了监控、故障排除和改进生产端点所需的精细可见性。

来源:亚马逊云科技 _机器学习

在生产中运行机器学习 (ML) 模型需要的不仅仅是基础设施弹性和扩展效率。您需要近乎持续地了解性能和资源利用率。当延迟增加、调用失败或资源受到限制时，您需要立即洞察以诊断并解决问题，以免影响客户。

到目前为止，Amazon SageMaker AI 提供的 Amazon CloudWatch 指标可提供有用的高级可见性，但这些指标是跨所有实例和容器的聚合指标。虽然有助于整体运行状况监控，但这些聚合指标掩盖了单个实例和容器的详细信息，导致难以查明瓶颈、提高资源利用率或有效排除故障。

SageMaker AI 端点现在支持具有可配置发布频率的增强指标。此次发布提供了监控、故障排除和改进生产端点所需的精细可见性。借助 SageMaker AI 端点增强指标，我们现在可以深入了解容器级和实例级指标，这些指标提供以下功能：

查看特定模型副本指标。使用推理组件在 SageMaker AI 端点上部署多个模型副本后，查看每个模型副本的指标（例如并发请求、GPU 利用率和 CPU 利用率）非常有用，可帮助诊断问题并提供生产工作负载流量模式的可见性。

查看每种型号的成本。由于多个模型共享相同的基础设施，计算每个模型的真实成本可能会很复杂。借助增强的指标，我们现在可以通过在推理组件级别跟踪 GPU 分配来计算和关联每个模型的成本。

增强的指标引入了两类具有多个粒度级别的指标：

EC2 资源利用率指标：跟踪实例和容器级别的 CPU、GPU 和内存消耗。

指标详细信息故障排除运行状况相同的提供利用率提高模型基础设施机器学习延迟增加排除故障需要的有用的查看组件级载流量 GPU 端点实例资源所需的工作负载副本容器频率的模型的可见性增强的 SageMaker AI 诊断