了解视觉变换器 (ViT):其表示的隐藏属性、见解和稳健性

我们研究 CNN 和 ViT 的学习视觉表征,例如纹理偏差、如何学习良好的表征、预训练模型的稳健性以及最终从训练过的 ViT 中出现的属性。

来源:AI夏令营

众所周知,Vision Transformers (ViTs) 在图像识别方面的表现可以优于卷积神经网络 (CNN),例如 ResNets。但是,哪些因素导致了 ViTs 的卓越表现?为了回答这个问题,我们研究了预训练模型的学习表示。

在本文中,我们将根据具有高影响力的计算机视觉论文探讨各种主题:

    纹理形状线索冲突以及在 ImageNet 上进行监督训练所带来的问题。学习稳健且有意义的视觉表示的几种方法,例如自我监督和自然语言监督。ViTs 与 CNN 的稳健性,以及突出显示经过训练的 ViTs 中出现的有趣属性。
  • 纹理形状线索冲突以及在 ImageNet 上进行监督训练所带来的问题。
  • 纹理形状线索冲突以及在 ImageNet 上进行监督训练所带来的问题。

  • 学习稳健且有意义的视觉表示的几种方法,例如自我监督和自然语言监督。
  • 学习稳健且有意义的视觉表示的几种方法,例如自我监督和自然语言监督。

  • ViTs 与 CNN 的稳健性,以及突出显示从训练过的 ViT 中出现的有趣属性。
  • ViTs 与 CNN 的稳健性,以及突出显示从训练过的 ViT 中出现的有趣属性。

    对抗性攻击是众所周知的实验,可帮助我们深入了解分类网络的工作原理。 它们旨在通过利用其梯度来欺骗神经网络(Goodfellow 等人)。 对抗性扰动不是通过改变权重来最小化损失,而是根据计算出的梯度改变输入以最大化损失。让我们看一下为 ViT 和 ResNet 模型计算的对抗性扰动。

    旨在通过利用梯度来欺骗神经网络

    图 1:ViT 和 ResNet 处理输入的方式非常不同。 来源

    来源

    让我们先介绍一些背景知识。

    L