修复错误的梯度累积:了解问题及其解决方案

多年的次优模型训练?继续阅读《走向数据科学》»

来源:走向数据科学

修复错误的梯度积累:了解问题及其解决方案

次优模型培训的几年?

作者的图像

在本地微调大型语言模型(LLMS)时,由于其大量的GPU记忆消耗,使用大批量的大小通常是不切实际的。为了克服这一限制,一种称为梯度积累的技术通常用于模拟较大的批量大小。梯度积累没有在处理每个批次后更新模型权重,而是涉及在几个较小的迷你批次上求和。仅在处理了这些微型批次的预定数量之后,才会更新模型权重。此方法有效地模拟了较大的批次尺寸,而没有通常与之相关的内存开销。

梯度积累

例如,将迷你批量的大小设置为1,并在32个小批量上累积梯度应等于训练,完整批量的大小为32。但是,我发现梯度积累通常会导致性能显着降低,而与较大的实际批次尺寸具有较大的实际批量训练,具有较大的实际批量,并具有流行的深层网络框架。

在X和Reddit分享此问题后,来自AI Unsploth AI的Daniel Han复制了该问题。他发现它不仅会影响梯度积累,还影响多GPU设置。在这样的…

x reddit 不舒服AI