Amazon SageMaker AI 端点的增强指标:更深入的可见性以实现更好的性能

SageMaker AI 端点现在支持具有可配置发布频率的增强指标。此次发布提供了监控、故障排除和改进生产端点所需的精细可见性。

来源:亚马逊云科技 _机器学习

在生产中运行机器学习 (ML) 模型需要的不仅仅是基础设施弹性和扩展效率。您需要近乎持续地了解性能和资源利用率。当延迟增加、调用失败或资源受到限制时,您需要立即洞察以诊断并解决问题,以免影响客户。

到目前为止,Amazon SageMaker AI 提供的 Amazon CloudWatch 指标可提供有用的高级可见性,但这些指标是跨所有实例和容器的聚合指标。虽然有助于整体运行状况监控,但这些聚合指标掩盖了单个实例和容器的详细信息,导致难以查明瓶颈、提高资源利用率或有效排除故障。

SageMaker AI 端点现在支持具有可配置发布频率的增强指标。此次发布提供了监控、故障排除和改进生产端点所需的精细可见性。借助 SageMaker AI 端点增强指标,我们现在可以深入了解容器级和实例级指标,这些指标提供以下功能:

  • 查看特定模型副本指标。使用推理组件在 SageMaker AI 端点上部署多个模型副本后,查看每个模型副本的指标(例如并发请求、GPU 利用率和 CPU 利用率)非常有用,可帮助诊断问题并提供生产工作负载流量模式的可见性。
  • 查看每种型号的成本。由于多个模型共享相同的基础设施,计算每个模型的真实成本可能会很复杂。借助增强的指标,我们现在可以通过在推理组件级别跟踪 GPU 分配来计算和关联每个模型的成本。
  • 新增内容

    增强的指标引入了两类具有多个粒度级别的指标:

  • EC2 资源利用率指标:跟踪实例和容器级别的 CPU、GPU 和内存消耗。
  • 实例级指标:适用于所有端点