大规模管理 ML 生命周期,第 4 部分:使用安全和治理控制扩展 MLOps

这篇文章提供了设置多账户 ML 平台关键组件的详细步骤。这包括配置 ML 共享服务账户,该账户管理中央模板、模型注册表和部署管道;从中央服务目录共享 ML Admin 和 SageMaker 项目组合;以及设置单独的 ML 开发账户,数据科学家可以在其中构建和训练模型。

来源:亚马逊云科技 _机器学习

数据科学团队在将模型从开发环境过渡到生产环境时经常面临挑战。这些挑战包括难以将数据科学团队的模型集成到 IT 团队的生产环境中,需要改进数据科学代码以满足企业安全和治理标准,获取生产级数据的访问权限,以及保持机器学习 (ML) 管道中的可重复性和可再现性,如果没有适当的平台基础设施和标准化模板,这些都很难实现。

这篇文章是“大规模管理 ML 生命周期”系列(第 1 部分、第 2 部分、第 3 部分)的一部分,解释了如何设置和管理解决这些挑战的多帐户 ML 平台。该平台为 ML 团队提供安全环境的自助服务配置、使用预定义模板加速模型开发、用于协作和重用的集中模型注册表以及标准化模型批准和部署流程。

第 1 部分 第 2 部分 第 3 部分

企业可能在 ML 生命周期中涉及以下角色。每个角色的功能因公司而异。在本文中,我们根据 ML 生命周期为每个角色分配以下功能:

  • 首席数据科学家 – 为 ML 开发团队提供账户,管理对账户和资源的访问,并促进标准化模型开发和批准流程,以消除重复的工程工作。通常,业务部门(例如营销部门)的数据科学组有一名首席数据科学家。
  • 首席数据科学家
  • 数据科学家 – 执行数据分析、模型开发、模型评估以及在模型注册表中注册模型。
  • 数据科学家
  • ML 工程师 – 开发模型部署管道并控制模型部署流程。
  • 机器学习工程师
  • 治理官 – 审查模型的性能,包括文档、准确性、偏差和访问权限,并为要部署的模型提供最终批准。
  • 治理官 分享 角色