AWS 与 Azure:深入探讨模型训练 - 第 2 部分

本文介绍了 Azure ML 的持久性、以工作区为中心的计算资源与 AWS SageMaker 的按需、特定于作业的方法有何不同。此外,我们还探索了环境自定义选项,从 Azure 的策划环境和自定义环境到 SageMaker 的三级自定义。AWS 与 Azure:深入研究模型训练 - 第 2 部分文章首先出现在 Towards Data Science 上。

来源:走向数据科学

在本系列的第 1 部分中,Azure 和 AWS 如何采用根本不同的方法来进行机器学习项目管理和数据存储。

Azure ML 使用以工作区为中心的结构,并具有用户级基于角色的访问控制 (RBAC),其中根据个人的职责向其授予权限。相比之下,AWS SageMaker 采用以作业为中心的架构,将用户权限与作业执行分离,通过 IAM 角色授予作业级别的访问权限。对于数据存储,Azure ML 依靠工作区中的数据存储和数据资产来管理幕后的连接和凭证,而 AWS SageMaker 直接与 S3 存储桶集成,需要为 SageMaker 执行角色授予显式权限才能访问数据。

在本文中了解更多信息:

确定了这些平台如何处理项目设置和数据访问后,在第 2 部分中,我们将检查为模型训练作业提供支持的计算资源和运行时环境。

计算

计算是运行模型和代码的虚拟机。它与网络和存储一样,是云计算的基本构建块之一。计算资源通常代表 ML 项目的最大成本组成部分,因为训练模型(尤其是大型 AI 模型)需要较长的训练时间,并且通常需要成本较高的专用计算实例(例如 GPU 实例)。因此,Azure ML 设计了专用的 AzureML 计算操作员角色(请参阅第 1 部分中的详细信息)来管理计算资源。

Azure 和 AWS 提供各种实例类型,这些实例类型在 CPU/GPU 数量、内存、磁盘空间和类型方面有所不同,每种实例类型都针对特定用途而设计。这两个平台都采用按需付费的定价模式,仅针对活动计算时间收费。

现在我们已经比较了 AWS 和 Azure 中的计算定价,接下来让我们探讨一下这两个平台在将计算资源集成到 ML 系统方面有何不同。

Azure ML

要创建 Azure ML 托管计算目标,我们使用以下代码创建 AmlCompute 对象: