大规模管理 ML 生命周期:使用 Amazon SageMaker 和 Amazon CloudWatch 实现集中可观察性

这篇文章是关于大规模管理机器学习 (ML) 生命周期的系列文章的一部分。要从头开始,请参阅大规模管理 ML 生命周期,第 1 部分:使用 Amazon SageMaker 构建 ML 工作负载的框架。多账户策略不仅对于改善治理至关重要,而且对于增强 […]

来源:亚马逊云科技 _机器学习

这篇文章是正在进行的有关机器学习(ML)生命周期的持续系列的一部分。要从一开始,请参阅按大规模管理ML生命周期,第1部分:用于使用Amazon SageMaker架构ML工作负载的框架。

按大规模管理ML生命周期,第1部分:使用Amazon Sagemaker架构ML工作负载的框架

多学会策略不仅对于改善治理,而且对于增强支持组织业务的资源的安全和控制至关重要。这种方法使您的组织中的各个团队能够更快地实验,创新和集成,同时确保生产环境安全并为您的客户使用。但是,由于多个团队可能会在云中使用您的ML平台,因此监视缩放多学院环境中的大型ML工作负载在设置和监视散布在多个帐户中的遥测数据方面面临着挑战。在这篇文章中,我们深入研究与亚马逊Sagemaker的多学院环境中的可观察性。

多学院策略 Amazon Sagemaker

Amazon Sagemaker模型监视器允许您自动监视生产中的ML模型,并在出现数据和模型质量问题时提醒您。 SageMaker Model Monitor将每个功能指标发射到Amazon CloudWatch,您可以使用该指标来设置仪表板和警报。您可以使用CloudWatch中的跨元观察性来搜索,分析和关联cloudWatch中存储的跨账户遥测遥测数据,例如指标,日志和一个集中式帐户中的痕迹。现在,您可以设置一个中央可观察性AWS帐户,并将其他帐户连接为来源。然后,您可以在您的应用程序中搜索,审核和分析日志,以便在几秒钟内深入到操作问题。您可以从一个地方发现并可视化从许多帐户中的操作和建模指标,并创建评估属于其他帐户的指标的警报。