总衍生物:纠正对背面链规则的误解

您认为您对反向传播的了解可能是错误的。

来源:走向数据科学

文章使用这篇精彩论文中的概念。要深入了解数学,请参考该论文。在这里,我们试图以更直观,更明确的方式介绍数学,并突出一些重要的细微差别。

1简介

关于反向流动的讨论经常说我们使用“链条规则”来得出渐变wrt的重量,然后继续呈现一个类似的公式:\(\ frac {dy} {dx} {dx} = \ frac {dy} {dy} {dt} {dt} {dt} \ frac {dt} {dt} {dx} {dx {dx} {dx} {

反向传播 “链条规则” WRT

这是单变量的链条规则,如果我们使用它来计算损失WRT,则计算的每一层梯度将是错误的。这种虚假陈述使潜在的数学混淆,并破坏了方程式的真正优雅。实际上,返回过程中使用的链条规则是单变量链规则的更一般情况 - 称为总导数。

总导数

我们需要这种更普遍的情况,因为我们在反向传播过程中遇到的问题是,每个层的输出构成了下一层的输入。由于每一层的输出也受其权重的影响,因此这意味着权重(我们想要调整的值)间接影响到下一层的输入。因此,要找到相对于一层的权重(反向底座背后的动机)的成本梯度,我们必须考虑一层中的权重如何影响连续层的值,一直到评估成本的最终层。我们将在下面讨论此问题。

我们面临的另一个困难是,每个隐藏层的输出都是值的向量(一层中有多个神经元),因此我们需要某种方法来一次考虑该图层的所有衍生物,而无需将每个衍生物计算为单独的操作。

在本文中,我们将看到矢量链规则如何帮助解决这两个问题。

矢量链规则 微积分
注意:混乱有许多类似的点,我们在整个文档中强调了这些。
注意: 实施 1 2 4