详细内容或原文请订阅后点击阅览
Amazon SageMaker AI 2025 年回顾,第 2 部分:提高 SageMaker AI 模型自定义和托管的可观测性并增强功能
2025 年,Amazon SageMaker AI 进行了多项改进,旨在帮助您训练、调整和托管生成型 AI 工作负载。在本系列的第 1 部分中,我们讨论了灵活的培训计划和对推理组件的性价比改进。在这篇文章中,我们讨论可观察性、模型定制和模型托管方面的增强功能。这些改进有助于在 SageMaker AI 上托管全新类别的客户用例。
来源:亚马逊云科技 _机器学习2025 年,Amazon SageMaker AI 进行了多项改进,旨在帮助您训练、调整和托管生成式 AI 工作负载。在本系列的第 1 部分中,我们讨论了灵活的培训计划和对推理组件的性价比改进。
在这篇文章中,我们讨论可观察性、模型定制和模型托管方面的增强功能。这些改进有助于在 SageMaker AI 上托管全新类别的客户用例。
可观察性
2025 年 SageMaker AI 的可观测性增强有助于提高模型性能和基础设施运行状况的可见性。增强的指标通过可配置的发布频率提供对 CPU、内存、GPU 利用率和调用性能的粒度、实例级和容器级跟踪,因此团队可以诊断以前被端点级聚合隐藏的延迟问题和资源效率低下。推理组件的滚动更新通过减少重复基础设施配置的需要来帮助转变部署安全性,更新以可配置的批次进行部署,并带有集成的 Amazon CloudWatch 警报监控,如果检测到问题就会触发自动回滚,从而促进零停机部署,同时通过逐步验证将风险降至最低。
增强指标
要启用增强指标,请在创建端点配置时添加 MetricsConfig 参数:
响应 = sagemaker_client.create_endpoint_config(
EndpointConfigName='我的配置',
