详细内容或原文请订阅后点击阅览
通过适用于 ML 和 SageMaker 训练计划的 EC2 容量块,确保 ML 工作负载的短期 GPU 容量
在本文中,您将了解如何使用适用于 ML 的 Amazon Elastic Compute Cloud (Amazon EC2) 容量块和 Amazon SageMaker 训练计划来确保短期工作负载的预留 GPU 容量。当您需要短期容量进行负载测试、模型验证、有时限的研讨会或在发布前准备推理能力时,这些解决方案可以解决 GPU 可用性挑战。
来源:亚马逊云科技 _机器学习随着各种规模的公司采用基于图形处理单元 (GPU) 的机器学习 (ML) 训练、微调和推理工作负载,对 GPU 容量的需求已经超过了全行业的供应。这种不平衡使得 GPU 成为稀缺资源,给需要可靠访问 GPU 计算资源来执行 ML 工作负载的客户带来了挑战。
当您遇到 GPU 容量限制时,您可以考虑创建按需容量预留 (ODCR)。 ODCR 适用于具有易于理解的使用模式的计划的稳态工作负载。 GPU 实例(尤其是 P 型实例)的短期 ODCR 可用性通常是有限的。此外,如果没有长期合同,ODCR 将按按需费率计费,不具备成本优势。这使得 ODCR 不适合短期或探索性工作负载,例如测试、评估或事件。有必要采取一种指导性方法来确保短期 GPU 容量。
在本文中,您将了解如何使用适用于 ML 的 Amazon Elastic Compute Cloud (Amazon EC2) 容量块和 Amazon SageMaker 训练计划来确保短期工作负载的预留 GPU 容量。当您需要短期容量进行负载测试、模型验证、有时限的研讨会或在发布前准备推理能力时,这些解决方案可以解决 GPU 可用性挑战。
解决方案概述和短期 GPU 选项
有多种方法可以访问 AWS 上的 GPU 容量来处理短期工作负载:
按需 GPU 实例
按需实例通常是短期 GPU 使用的首选。如果启动时有可用容量,您可以立即开始使用 GPU 实例,无需事先承诺。这非常适合临时实验、短期测试和开发任务。
Spot GPU 实例
用于 ML 的 Amazon EC2 容量块
容量块适用于直接在 Amazon EC2 上运行的工作负载,您可以自行管理操作系统、网络和编排层。
注意:容量块有以下限制:
