小心操作:使用 EMA 改进梯度手术

除了最小化单个训练损失之外,许多深度学习估计管道还依赖于辅助目标来量化和鼓励模型的理想属性(例如,在另一个数据集上的性能、稳健性、与先验的一致性)。虽然合并辅助损失的最简单方法是将其与训练损失相加作为正则化器,但最近的研究表明,可以通过混合梯度而不是简单的总和来提高性能;这被称为梯度手术。我们将问题视为一个受约束的最小化问题,其中辅助目标是……

来源:Apple机器学习研究

除了最小化单个训练损失之外,许多深度学习估计管道还依赖于辅助目标来量化和鼓励模型的理想属性(例如,在另一个数据集上的表现、稳健性、与先验的一致性)。虽然纳入辅助损失的最简单方法是将其与训练损失相加作为正则化项,但最近的研究表明,可以通过混合梯度而不是简单的求和来提高性能;这被称为梯度手术。我们将问题视为一个受约束的最小化问题,其中辅助目标在训练损失的最小化器集合中最小化。为了解决这个双层问题,我们遵循一个参数更新方向,该方向结合了训练损失梯度和辅助梯度到训练梯度的正交投影。在梯度来自小批量的环境中,我们解释了如何使用训练损失梯度的移动平均值来小心地保持这一关键的正交性。我们证明了我们的方法 Bloop 可以在 NLP 和视觉实验中比其他没有 EMA 的梯度手术方法带来更好的性能。

图 1:bloop 方法的原理。
图 1:bloop 方法的原理。