ademamix优化器:更好,更快,较早

基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值(EMA),该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似,随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA来积累过去的梯度,并在经验上证明了该选择如何是最佳选择的:单个EMA不能同时给直接的过去带来高度的重量,而……

来源:Apple机器学习研究

基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值(EMA),该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似,随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA积累了过去的梯度,并从经验上说明了这种选择如何是最佳选择的:单个EMA不能同时给直接的过去,而对较旧梯度的不可忽视。在这一观察结果的基础上,我们提出了Ademamix,这是对Adam Optimizer与两个EMA的混合物的简单修改,以更好地利用过去的梯度。我们关于语言建模和图像分类的实验表明 - 令人惊讶的是 - 梯度可以保持数万步的相关性。它们有助于更快地收敛,并且通常会降低最小值:此外,我们的方法在训练过程中会大大减慢模型遗忘。我们的工作激发了对不同类型功能的进一步探索,以利用EMAS之外的过去梯度。