随着视觉变换器 (ViT) 的巨大成就,基于变换器的方法已成为解决各种计算机视觉任务的新范式。然而,最近的研究表明,与卷积神经网络 (CNN) 类似,ViT 仍然容易受到对抗性攻击。为了探索不同结构模型的共同缺陷,研究人员开始分析跨结构对抗性迁移能力,而这方面仍未得到充分研究。因此,在本文中,我们专注于 ViT 攻击,以提高基于变换器和基于卷积的模型之间的跨结构迁移能力。先前的研究未能彻底调查 ViT 模型内部组件对对抗性迁移能力的影响,导致性能较差。为了克服这个缺点,我们开展了一项激励研究,通过线性缩小 ViT 模型内部组件的梯度来分析它们对对抗性迁移能力的影响。基于这项激励研究,我们发现跳跃连接的梯度对迁移能力的影响最大,并相信来自更深块的反向传播梯度可以增强迁移能力。因此,我们提出了虚拟密集连接方法(VDC)。具体来说,在不改变前向传播的情况下,我们首先重构原始网络以添加虚拟密集连接。然后,在生成对抗样本时,我们通过虚拟密集连接反向传播更深层注意力图和多层感知器(MLP)块的梯度。大量实验证实了我们提出的方法优于最先进的基线方法,ViT模型之间的可迁移性提高了8.2%,从ViT到CNN的跨结构可迁移性提高了7.2%。
主要关键词