摘要 - 基于变压器的模型主导了NLP和视觉应用,其基本机制却尚不清楚为标签空间映射到标签空间的基本机制。在本文中,我们研究了视觉变压器(VIT)的已知表示形式漏洞的来源,其中感知相同的图像可以具有非常不同的表示,而语义上无关的图像可以具有相同的表示形式。我们的分析表明,对输入的不可感知的变化可能会导致显着的表示变化,尤其是在以后的层中,这表明VIT的性能中的潜在不稳定性。我们的全面研究表明,在早期层中微妙的较微妙的效果通过网络传播和放大,在中间到晚层中变得最明显。这种洞察力激发了神经维特 - 武器的发展,这是一种新型的防御机制,在战略上使早期层中脆弱的神经元中和脆弱的神经元,以防止一系列对抗性效应。我们在各种攻击中展示了神经果赛的有效性,尤其是在强烈的迭代攻击中出色,并展示了其非凡的零弹性概括能力。在没有微调的情况下,我们的方法在对抗性示例中实现了77.8%的效率精度,超过了常规的鲁棒性方法。我们的结果为对抗性效应如何通过VIT层传播,同时提供了一种有希望的方法来增强视觉变压器对对抗性攻击的鲁棒性。此外,它们还提供了一种有希望的方法来增强视力变压器对对抗攻击的鲁棒性。索引术语 - 代表脆弱性,对抗性攻击,视觉变压器,可靠的嵌入
主要关键词