Amazon Sagemaker AI和Comet

在这篇文章中,我们展示了如何使用sagemaker和Comet一起旋转具有可重现性和实验跟踪功能的完全管理的ML环境。

来源:亚马逊云科技 _机器学习
这篇文章是由comet的莎拉·奥斯特梅尔(Sarah Ostermeier)撰写的。作为企业组织,将其机器学习(ML)计划从概念证明到生产,管理实验的复杂性,跟踪模型谱系的复杂性,以及管理可重复性的依据会增长。这主要是因为数据科学家和ML工程师不断探索超参数,模型体系结构和数据集版本的不同组合,从而产生大量必须跟踪的元数据,以实现可重复性和合规性。随着ML模型开发的范围跨多个团队和监管要求加剧,跟踪实验变得更加复杂。随着AI法规的增加,尤其是在欧盟,组织现在需要详细的模型培训数据,绩效期望和开发过程的详细审核跟踪,从而使实验跟踪业务必要性,而不仅仅是最佳实践。AmazonSagemaker AI提供了托管基础架构企业企业企业,不需要扩展ML工作量,而不是扩展ML工作量,而无需缩放ML的工作,而无需缩小培训,而无需进行培训,而无需进行培训,而无需进行培训,并置于培训和部署范围。但是,团队仍然需要强大的实验跟踪,模型比较以及超越基本logging.comet的协作功能,这是一个全面的ML实验管理平台,可以自动跟踪,比较和优化整个模型生命周期中的ML实验。它为数据科学家和ML工程师提供了强大的实验跟踪工具,模型监视,超参数优化和协作模型开发。它还提供了Comet的LLM可观察性的开源平台OPIK,并且可以在SageMaker AI中作为合作伙伴AI应用程序提供,作为一个完全管理的实验管理能力,具有企业级安全性,无缝的工作流程,以及通过AWS Marketplace的直接采购过程。