用于训练非常深的神经网络的层内规范化技术

我们如何有效地训练非常深的神经网络架构?最好的层内规范化选项是什么?我们收集了您需要的有关 transformer、循环神经网络、卷积神经网络中规范化的所有信息。

来源:AI夏令营

如果你打开任何一本入门级机器学习教科书,你都会发现输入缩放的概念。使用非规范化特征训练梯度下降模型是不可取的。

输入缩放 梯度下降

在本文中,我们将回顾和了解最常见的规范化方法。针对不同的任务和架构,已经引入了不同的方法。我们将尝试将任务与方法联系起来,尽管有些方法非常通用。

为什么?

让我们从一个直观的例子开始,以了解为什么我们想要在任何模型中进行规范化。

示例

想象一下,如果输入特征位于不同的范围内会发生什么。假设一个输入特征位于范围 [0,1] 内,另一个输入特征位于范围 [0,10000] 内。因此,由于权重是在一个小而近的范围内初始化的,因此模型将简单地忽略第一个特征。你甚至不需要梯度爆炸。是的,这是你将面临的另一个问题。

同样,我们在深度神经网络层内也会遇到同样的问题。这个问题与架构(Transformer、卷积神经网络、循环神经网络、GAN)无关。

Transformer 卷积神经网络 循环神经网络、GAN 循环神经网络 GAN
如果我们跳出框框思考,任何中间层在概念上都与输入层相同:它接受特征并对其进行转换。

如果我们跳出框框思考,任何中间层在概念上都与输入层相同:它接受特征并对其进行转换。

为此,我们需要开发更有效地训练模型的方法。可以从训练时间、性能和稳定性等方面来评估有效性。

下面你可以看到一个图表,描绘了不同论文使用的规范化方法随时间的变化趋势。

来源:带代码的论文

来源:带代码的论文 带代码的论文 Coursera 专业化

符号

NNN NNN NN NN NN N N N N N N HHH HHH HH HH HH H H H H H H WWW WWW WW WW WW W W W W W W > CCC CCC CC CC CC C C C C C C xxx xxx xx xx xx x