使用 NVIDIA Blackwell 优化 Amazon SageMaker AI 上的模型训练

本文向您展示如何在 Amazon SageMaker AI 上配置训练作业,以充分利用 AWS 上的 Blackwell 架构。您将学习如何选择利用 Blackwell 扩展内存的批量大小和序列长度,为您的模型大小(1B 至 64B 参数)选择正确的精度格式,以及策略性地应用激活检查点。最后,您将拥有一个实用的框架,用于调整训练配置并在 P6-B200 实例上启动分布式训练作业。

来源:亚马逊云科技 _机器学习

使用 NVIDIA Blackwell GPU 优化 Amazon SageMaker AI 上的模型训练改变了大型 AI 模型的实用性。如果您现在训练大型模型,您可能会遇到一组熟悉的约束:受 GPU 内存限制的批量大小、缩短序列长度以避免内存不足错误,以及模型分片会在扩展时增加通信开销。 Blackwell 的扩展内存和新的精度格式直接减少了这些限制。具有 8 个 Blackwell GPU 的 P6-B200 实例可用于 Amazon SageMaker AI 训练作业,您可以使用具有可预测访问、成本管理和自动化资源管理的灵活训练计划来预订容量。 Amazon SageMaker AI 训练作业可让您通过自动预置和管理底层计算基础设施和资源来大规模训练 ML 模型,这样您就可以专注于数据和算法,而不是基础设施操作。

本文向您展示如何在 Amazon SageMaker AI 上配置训练作业,以充分利用 AWS 上的 Blackwell 架构。您将学习如何选择利用 Blackwell 扩展内存的批量大小和序列长度,为您的模型大小(1B 至 64B 参数)选择正确的精度格式,以及策略性地应用激活检查点。最后,您将拥有一个实用的框架,用于调整训练配置并在 P6-B200 实例上启动分布式训练作业。

正确配置的 Blackwell 训练作业可以处理更大的批量,而无需进行激进的分片,从而减少通信开销并提高吞吐量。较长的序列长度对于远程依赖任务来说是可行的。通过正确的精度格式,以前需要多节点设置的模型可以在单个 8-GPU 节点上运行,这意味着更快的迭代周期、更少的网络开销和更低的基础设施成本。

了解 NVIDIA Blackwell

内存管理

精度格式

先决条件

启动训练作业