使用 Spectrum 微调提高 Amazon SageMaker AI 上的 FM 训练效率

在本文中,您将了解如何使用 Spectrum 优化资源使用并缩短训练时间而不牺牲质量,以及如何通过 Amazon SageMaker AI 训练作业实施 Spectrum 微调。我们还将讨论 QLoRA 和 Spectrum 微调之间的权衡,表明虽然 QLoRA 资源效率更高,但 Spectrum 总体性能更高。

来源:亚马逊云科技 _机器学习
优化生成式 AI 应用程序依赖于使用即时工程、RAG、持续预训练和微调等技术来定制基础模型 (FM)。通过战略性地管理硬件、训练时间、数据量和模型质量来实现高效微调,以减少资源需求并实现价值最大化。Spectrum 是一种新方法,旨在精确定位基础模型 (FM) 中信息最丰富的层。使用这种方法,您可以有选择地微调模型的一部分,从而提高训练效率。 最近,已经开发了几种方法来更有效地微调语言模型,从而减少计算资源和时间。量化 LoRA (QLoRA) 是一种广泛使用的技术,它将低秩自适应 (LoRA) 与原始训练模型的量化相结合。这种方法产生了令人印象深刻的结果,仅略逊于完全微调,同时仅使用一小部分 GPU 资源。然而,QLoRA 在整个模型中统一应用低秩自适应。在本文中,您将了解如何使用 Spectrum 优化资源使用并缩短训练时间而不牺牲质量,以及如何通过 Amazon SageMaker AI 训练作业实施 Spectrum 微调。我们还将讨论 QLoRA 和 Spectrum 微调之间的权衡,表明虽然 QLoRA 资源效率更高,但 Spectrum 总体性能更高。 Spectrum 微调的工作原理Spectrum 首先评估 FM 各层的权重矩阵,并逐层计算信噪比 (SNR)。 Spectrum 没有量化所有层,而是根据 SnR 有选择地以全精度训练层的子集,并冻结模型的其余部分。您还可以执行 FP16、BF16 或 FP8 训练,这些训练在较新的 GPU 中可用。通过利用随机矩阵理论和 Marchenko-Pastur 分布,它可以有效地区分信号和噪声。基于可配置