详细内容或原文请订阅后点击阅览
了解视觉变换器 (ViT):其表示的隐藏属性、见解和稳健性
我们研究 CNN 和 ViT 的学习视觉表征,例如纹理偏差、如何学习良好的表征、预训练模型的稳健性以及最终从训练过的 ViT 中出现的属性。
来源:AI夏令营众所周知,Vision Transformers (ViTs) 在图像识别方面的表现可以优于卷积神经网络 (CNN),例如 ResNets。但是,哪些因素导致了 ViTs 的卓越表现?为了回答这个问题,我们研究了预训练模型的学习表示。
在本文中,我们将根据具有高影响力的计算机视觉论文探讨各种主题:
- 纹理形状线索冲突以及在 ImageNet 上进行监督训练所带来的问题。学习稳健且有意义的视觉表示的几种方法,例如自我监督和自然语言监督。ViTs 与 CNN 的稳健性,以及突出显示经过训练的 ViTs 中出现的有趣属性。
纹理形状线索冲突以及在 ImageNet 上进行监督训练所带来的问题。
学习稳健且有意义的视觉表示的几种方法,例如自我监督和自然语言监督。
ViTs 与 CNN 的稳健性,以及突出显示从训练过的 ViT 中出现的有趣属性。
对抗性攻击是众所周知的实验,可帮助我们深入了解分类网络的工作原理。 它们旨在通过利用其梯度来欺骗神经网络(Goodfellow 等人)。 对抗性扰动不是通过改变权重来最小化损失,而是根据计算出的梯度改变输入以最大化损失。让我们看一下为 ViT 和 ResNet 模型计算的对抗性扰动。
旨在通过利用梯度来欺骗神经网络图 1:ViT 和 ResNet 处理输入的方式非常不同。 来源
来源让我们先介绍一些背景知识。