机器学习“降临节日历”奖励 2：Excel 中的梯度下降变体 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

机器学习“降临节日历”奖励 2：Excel 中的梯度下降变体

2025年12月31日 11:00 33 Comments

梯度下降、动量、RMSProp 和 Adam 都以相同的最小值为目标。他们不会改变目的地，只会改变路径。每种方法都增加了一种机制，可以修复前一种方法的局限性，使移动更快、更稳定或更自适应。目标保持不变。更新变得更加智能。机器学习“降临日历”奖励 2：Excel 中的梯度下降变体一文首先出现在走向数据科学上。

来源:走向数据科学

使用梯度下降来找到其权重的最佳值。线性回归、逻辑回归、神经网络和大型语言模型都依赖于这个原理。在之前的文章中，我们使用了简单的梯度下降，因为它更容易展示，也更容易理解。

同样的原理也大规模地出现在现代大型语言模型中，其中训练需要调整数百万或数十亿个参数。

然而，真正的训练很少使用基本版本。它通常太慢或太不稳定。现代系统使用梯度下降的变体来提高速度、稳定性或收敛性。

在这篇附赠文章中，我们重点关注这些变体。我们看看它们为什么存在，它们解决什么问题，以及它们如何改变更新规则。我们在这里不使用数据集。我们使用一个变量和一个函数，只是为了使行为可见。目标是展示运动，而不是训练模型。

1. 梯度下降和更新机制

1.1 问题设置

为了使这些想法可见，我们在这里不会使用数据集，因为数据集会引入噪音并使得直接观察行为变得更加困难。相反，我们将使用单个函数：

f(x) = (x – 2)²

我们从 x = 4 开始，梯度为：

梯度 = 2*(x – 2)

这个简单的设置消除了干扰。目标不是训练模型，而是了解不同的优化规则如何改变向最小值的移动。

1.2 每次更新背后的结构

本文中的每个优化方法都构建在同一循环上，即使内部逻辑变得更加复杂也是如此。

首先，我们读取 x 的当前值。

然后，我们使用表达式 2*(x – 2) 计算梯度。

最后，我们根据所选变体定义的特定规则更新 x。

目的地保持不变，并且渐变始终指向正确的方向，但是我们沿着这个方向移动的方式从一种方法变为另一种方法。这种运动的变化是每个变体的本质。

线性衰减

训练模型收敛性运动的训练更新规则提高不稳定方向移动使用数据大规模高速度下降方法正确的背后的稳定性梯度下降的变体目标不同的更新最佳值最小值目的地神经网络根据表达式真正的为什么使用优化展示简单的提高速度移动的数据集同样的规则模型线性回归