用于训练深度神经网络的正则化技术

了解什么是正则化,为什么它在深度神经网络中是必要的,并探索最常用的策略:L1、L2、dropout、随机深度、早期停止等

来源:AI夏令营

正则化是机器学习中用于减少泛化误差的一组策略。大多数模型在训练后,在总体群体的特定子集上表现非常好,但不能很好地泛化。这也称为过度拟合。正则化策略旨在减少过度拟合,同时将训练误差保持在尽可能低的水平。

TL;DR

在本文中,我们将回顾训练深度神经网络时使用的最流行的正则化技术。我们将根据它们的相似性将这些技术归类为更大的家族。

为什么要正则化?

您可能听说过著名的 ResNet CNN 架构。ResNets 最初是在 2015 年提出的。最近的一篇名为“重新审视 ResNets:改进的训练和扩展策略”的论文应用了现代正则化方法,并在 Imagenet 上实现了超过 3% 的测试集准确率。

ResNet
如果测试集包含 100K 张图像,则意味着有 3K 多个图像被正确分类!

如果测试集包含 100K 张图像,则意味着有 3K 多个图像被正确分类!

很棒,不是吗?

重温 ResNets:Irwan Bello 等人改进的训练和扩展策略

重温 ResNets:Irwan Bello 等人改进的训练和扩展策略 重温 ResNets:Irwan Bello 等人改进的训练和扩展策略

现在,让我们直奔主题。

什么是正则化?

根据 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 在他们的《深度学习》一书中的说法:

“在深度学习的背景下,大多数正则化策略都基于正则化估计量。估计量的正则化通过用增加的偏差换取减少的方差来实现。有效的正则化器是一种能够进行有利可图的交易的正则化器,它可以显著减少方差,同时不会过度增加偏差。”
更简单的模型

为了获得更好的洞察力,您需要了解著名的偏差-方差权衡。

偏差-方差权衡:过度拟合和欠拟合

datascience.foundation/ 方差