获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
The AdEMAMix Optimizer: Better, Faster, Older
基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值(EMA),该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似,随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA来积累过去的梯度,并在经验上证明了该选择如何是最佳选择的:单个EMA不能同时给直接的过去带来高度的重量,而……