详细内容或原文请订阅后点击阅览
机器学习“降临节日历”奖励 2:Excel 中的梯度下降变体
梯度下降、动量、RMSProp 和 Adam 都以相同的最小值为目标。他们不会改变目的地,只会改变路径。每种方法都增加了一种机制,可以修复前一种方法的局限性,使移动更快、更稳定或更自适应。目标保持不变。更新变得更加智能。机器学习“降临日历”奖励 2:Excel 中的梯度下降变体一文首先出现在走向数据科学上。
来源:走向数据科学使用梯度下降来找到其权重的最佳值。线性回归、逻辑回归、神经网络和大型语言模型都依赖于这个原理。在之前的文章中,我们使用了简单的梯度下降,因为它更容易展示,也更容易理解。
同样的原理也大规模地出现在现代大型语言模型中,其中训练需要调整数百万或数十亿个参数。
然而,真正的训练很少使用基本版本。它通常太慢或太不稳定。现代系统使用梯度下降的变体来提高速度、稳定性或收敛性。
在这篇附赠文章中,我们重点关注这些变体。我们看看它们为什么存在,它们解决什么问题,以及它们如何改变更新规则。我们在这里不使用数据集。我们使用一个变量和一个函数,只是为了使行为可见。目标是展示运动,而不是训练模型。
1. 梯度下降和更新机制
1.1 问题设置
为了使这些想法可见,我们在这里不会使用数据集,因为数据集会引入噪音并使得直接观察行为变得更加困难。相反,我们将使用单个函数:
f(x) = (x – 2)²
我们从 x = 4 开始,梯度为:
梯度 = 2*(x – 2)
这个简单的设置消除了干扰。目标不是训练模型,而是了解不同的优化规则如何改变向最小值的移动。
1.2 每次更新背后的结构
本文中的每个优化方法都构建在同一循环上,即使内部逻辑变得更加复杂也是如此。
目的地保持不变,并且渐变始终指向正确的方向,但是我们沿着这个方向移动的方式从一种方法变为另一种方法。这种运动的变化是每个变体的本质。
