用于训练深度神经网络的正则化技术 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

用于训练深度神经网络的正则化技术

2021年5月27日 00:00 33 Comments

了解什么是正则化，为什么它在深度神经网络中是必要的，并探索最常用的策略：L1、L2、dropout、随机深度、早期停止等

来源:AI夏令营

正则化是机器学习中用于减少泛化误差的一组策略。大多数模型在训练后，在总体群体的特定子集上表现非常好，但不能很好地泛化。这也称为过度拟合。正则化策略旨在减少过度拟合，同时将训练误差保持在尽可能低的水平。

在本文中，我们将回顾训练深度神经网络时使用的最流行的正则化技术。我们将根据它们的相似性将这些技术归类为更大的家族。

您可能听说过著名的 ResNet CNN 架构。ResNets 最初是在 2015 年提出的。最近的一篇名为“重新审视 ResNets：改进的训练和扩展策略”的论文应用了现代正则化方法，并在 Imagenet 上实现了超过 3% 的测试集准确率。

ResNet

如果测试集包含 100K 张图像，则意味着有 3K 多个图像被正确分类！

如果测试集包含 100K 张图像，则意味着有 3K 多个图像被正确分类！

很棒，不是吗？

重温 ResNets：Irwan Bello 等人改进的训练和扩展策略

重温 ResNets：Irwan Bello 等人改进的训练和扩展策略 重温 ResNets：Irwan Bello 等人改进的训练和扩展策略

现在，让我们直奔主题。

根据 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 在他们的《深度学习》一书中的说法：

“在深度学习的背景下，大多数正则化策略都基于正则化估计量。估计量的正则化通过用增加的偏差换取减少的方差来实现。有效的正则化器是一种能够进行有利可图的交易的正则化器，它可以显著减少方差，同时不会过度增加偏差。”

更简单的模型

为了获得更好的洞察力，您需要了解著名的偏差-方差权衡。

datascience.foundation/ 方差

拟合测试减少 ResNets 方差训练策略 Irwan 改进的扩展过度 Bello 正则偏差