最佳深度 CNN 架构及其原理:从 AlexNet 到 EfficientNet

卷积神经网络如何工作?设计一个 CNN 架构背后的原理是什么?我们是如何从 AlexNet 转向 EfficientNet 的?

来源:AI夏令营

深度学习在约 8.5 年内取得了如此快速的进步!早在 2012 年,Alexnet 在 ImageNet 上的 Top-1 准确率就达到了 63.3%。现在,借助 EfficientNet 架构和师生训练,我们的准确率已超过 90%。

如果我们绘制出所有已报告的 Imagenet 作品的准确率,我们会得到如下结果:

来源:带有代码的论文 - Imagenet 基准

来源:带有代码的论文 - Imagenet 基准 来源:带有代码的论文 - Imagenet 基准

在本文中,我们将重点介绍卷积神经网络 (CNN) 架构的演变。我们不会报告简单的数字,而是关注基本原理。为了提供另一个视觉概览,人们可以在一张图片中捕获到 2018 年之前表现最佳的 CNN:

到 2018 年的架构概览。来源:Simone Bianco 等人 2018

到 2018 年的架构概览。来源:Simone Bianco 等人 2018 来源:Simone Bianco 等人 2018

不要惊慌。所有描绘的架构都基于我们将要描述的概念。

请注意,每秒浮点运算次数 (FLOP) 表示模型的复杂度,而在垂直轴上我们有 Imagenet 准确度。圆的半径表示参数的数量。

FLOP

从上图可以看出,更多的参数并不总是会带来更好的准确度。我们将尝试概括 CNN 的更广阔视角,并了解其原因。

更多参数并不一定能提高准确性
如果您想从头开始了解卷积的工作原理,建议参加 Andrew’s Ng 课程。

如果您想从头开始了解卷积的工作原理,建议参加 Andrew’s Ng 课程。

课程

术语

但首先,我们必须定义一些术语:

  • 更宽的网络意味着卷积层中有更多的特征图(过滤器)
  • 更宽的网络意味着卷积层中有更多的特征图(过滤器)

    更宽
  • 更深的网络意味着更多的卷积层
  • 更深

    更高的分辨率 缩放 最大池化 PyTorch ( nn . )