用于在资源受限的移动设备上微调 LLM 的内存高效反向传播

使用反向传播对大型语言模型 (LLM) 进行微调(即使对于 LoRA 等参数子集)可能比推理更消耗内存,并且对于资源受限的移动设备来说通常被认为是不切实际的。零阶优化 (ZO) 等替代方法可以大大减少内存占用,但代价是模型收敛速度显着减慢(比反向传播多 10 倍到 100 倍的步骤)。我们提出了一种在移动设备上实现反向传播 (MeBP) 的内存高效实现,它可以在内存使用和计算之间提供更好的权衡……

来源:Apple机器学习研究

使用反向传播对大型语言模型 (LLM) 进行微调(即使对于 LoRA 等参数子集)可能比推理更消耗内存,并且对于资源受限的移动设备来说通常被认为是不切实际的。零阶优化 (ZO) 等替代方法可以大大减少内存占用,但代价是模型收敛速度显着减慢(比反向传播多 10 倍到 100 倍的步骤)。我们提出了一种在移动设备上高效利用内存的反向传播 (MeBP) 实现,它可以在内存使用和计算时间之间提供更好的权衡,同时收敛速度更快,并实现比 ZO 基线更好的性能。我们在 iPhone 15 Pro Max 上验证了 MeBP 的有效性,并表明可以使用不到 1GB 的内存来微调从 0.5B 到 4B 参数的各种 LLM。