对抗训练是一种鲁棒性模型来防止对抗攻击的流行方法。但是,它表现出比在干净输入的训练要严重得多的。在这项工作中,我们从培训实例的角度(即训练输入目标对)研究了这种现象。基于训练集中实例相对困难的定量度量,我们分析了该模型在不同难度水平的训练实例上的行为。这使我们证明,对抗训练的概括性能衰减是拟合硬对抗实例的结果。我们从理论上验证了线性和一般非线性模型的观察结果,证明了在硬实例上训练的模型的概括性能要比在简单实例上接受培训的模型要差,并且这种概括差距随着对抗性预算的规模而增加。最后,我们调查了在几种情况下减轻对抗性过度插入的解决方案,包括快速的对抗训练和使用其他数据进行预处理的模型。我们的结果表明,使用训练数据可自动提高模型的鲁棒性。
主要关键词