Amazon SageMaker AI 2025 年回顾,第 2 部分:提高 SageMaker AI 模型自定义和托管的可观测性并增强功能

2025 年,Amazon SageMaker AI 进行了多项改进,旨在帮助您训练、调整和托管生成型 AI 工作负载。在本系列的第 1 部分中,我们讨论了灵活的培训计划和对推理组件的性价比改进。在这篇文章中,我们讨论可观察性、模型定制和模型托管方面的增强功能。这些改进有助于在 SageMaker AI 上托管全新类别的客户用例。

来源:亚马逊云科技 _机器学习

2025 年,Amazon SageMaker AI 进行了多项改进,旨在帮助您训练、调整和托管生成式 AI 工作负载。在本系列的第 1 部分中,我们讨论了灵活的培训计划和对推理组件的性价比改进。

在这篇文章中,我们讨论可观察性、模型定制和模型托管方面的增强功能。这些改进有助于在 SageMaker AI 上托管全新类别的客户用例。

可观察性

2025 年 SageMaker AI 的可观测性增强有助于提高模型性能和基础设施运行状况的可见性。增强的指标通过可配置的发布频率提供对 CPU、内存、GPU 利用率和调用性能的粒度、实例级和容器级跟踪,因此团队可以诊断以前被端点级聚合隐藏的延迟问题和资源效率低下。推理组件的滚动更新通过减少重复基础设施配置的需要来帮助转变部署安全性,更新以可配置的批次进行部署,并带有集成的 Amazon CloudWatch 警报监控,如果检测到问题就会触发自动回滚,从而促进零停机部署,同时通过逐步验证将风险降至最低。

增强指标

要启用增强指标,请在创建端点配置时添加 MetricsConfig 参数:

响应 = sagemaker_client.create_endpoint_config(

EndpointConfigName='我的配置',

ProductionVariants=[{...}],

指标配置={

'EnableEnhancedMetrics':正确,

'MetricPublishFrequencyInSeconds': 60 # 支持: 10, 30, 60, 120, 180, 240, 300

})增强型指标可在整个 AWS 区域中用于单一模型终端节点和推理组件,从而为大规模生产 AI 部署提供全面的可观察性。Guardrail 部署与滚动更新可用性Serverless 模型定制双向流IPv6 和 PrivateLink