视觉变换器是否像卷积神经网络一样看?

到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析 ViT 和 CNN 在图像分类基准上的内部表示结构,我们发现这两种架构之间存在显着差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它可以实现全局信息的早期聚合,以及 ViT 残差连接,它可以将特征从较低层强烈传播到较高层。

来源:La Biblia de la IA

🔘 论文页面:arxiv.org/abs/2108.08810v1

🔘 论文页面

摘要

«卷积神经网络 (CNN) 迄今为止一直是视觉数据的事实模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这提出了一个核心问题:Vision Transformers 如何解决这些任务?它们的行为像卷积网络,还是学习完全不同的视觉表示?通过分析 ViT 和 CNN 在图像分类基准上的内部表示结构,我们发现这两种架构之间存在显着差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自注意力所起的关键作用,它可以实现全局信息的早期聚合,以及 ViT 残差连接,它可以将特征从较低层强烈传播到较高层。我们研究了空间定位的影响,证明了 ViT 成功地保留了输入的空间信息,并且不同分类方法的效果显著。最后,我们研究了(预训练)数据集规模对中间特征和迁移学习的影响,并最后讨论了与 MLP-Mixer 等新架构的连接。»

« « » »

作者

Maithra Raghu、Thomas Unterthiner、Simon Kornblith、Chiyuan Zhang、Alexey Dosovitskiy

喜欢这篇文章吗?关注此博客以了解更多信息。

喜欢这篇文章吗?关注此博客以了解更多信息。