详细内容或原文请订阅后点击阅览
FP8 如何在 Amazon SageMaker P5 实例上将 LLM 培训提高 18%
近年来,LLM 培训取得了显著的进步,组织在模型大小、性能和效率方面不断突破极限。在本文中,我们将探讨 FP8 优化如何显著加快 Amazon SageMaker P5 实例上的大型模型训练。
来源:亚马逊云科技 _机器学习大型语言模型 (LLM) 是经过大量文本数据训练的 AI 系统,使其能够以高度灵活和高效的方式理解、生成和推理自然语言。近年来,LLM 训练取得了显著进步,组织在模型大小、性能和效率方面不断突破极限。在本文中,我们将探讨 FP8 优化如何显著加快 Amazon SageMaker P5 实例上的大型模型训练。
Amazon SageMaker使用 SageMaker P5 进行 LLM 训练
2023 年,SageMaker 宣布推出 P5 实例,该实例支持多达八个最新的 NVIDIA H100 Tensor Core GPU。P5 实例配备了 EFA 等高带宽网络技术,为分布式训练提供了强大的平台,使大型模型能够在多个节点上并行训练。通过使用 Amazon SageMaker 模型训练,组织能够通过转向 P5 实例实现更高的训练速度和效率。这展示了使用 SageMaker Training 更快、更有效地训练不同规模模型的变革潜力。
宣布 Amazon SageMaker 模型训练使用 FP8 进行 LLM 训练
使用 FP8 精度训练模型的功能 Transformer Engine (TE) 库线性
LayerNorm
DotProductAttention
结果
我们使用 1B 参数和 7B 参数 LLM 进行了一些测试,分别运行有和没有 FP8 的训练。该测试在一个时期内对 240 亿个 token 进行,从而提供吞吐量(以每 GPU 每秒 token 为单位)和模型性能(以损失数为单位)的比较。对于 1B 参数模型,我们计算结果以使用不同数量的实例进行分布式训练来比较与 FP8 的性能。下表总结了我们的结果: