线性近似关键词检索结果

ademamix优化器:更好,更快,较早

The AdEMAMix Optimizer: Better, Faster, Older

基于动量的优化器对于广泛的机器学习应用是至关重要的。这些通常依赖于梯度的指数移动平均值(EMA),该梯度呈指数衰减的旧梯度的当前贡献。这说明梯度是局部线性近似,随着迭代沿损失格局的移动而失去相关性。这项工作质疑使用单个EMA来积累过去的梯度,并在经验上证明了该选择如何是最佳选择的:单个EMA不能同时给直接的过去带来高度的重量,而……