摘要。不受限制的对抗攻击对深度学习模型和对抗性防御技术构成了严重威胁。它们为深度学习应用带来了安全问题,因为它们可以有效地绕过防御机制。然而,以前的攻击通常直接直接将投影梯度下降(PGD)梯度注入生成模型的采样中,这些模型并非理论上是可以预见的,因此通过合并对抗性目标,尤其是对于像ImageNet这样的大型数据集的基于GAN的方法,从而产生了不切实际的示例。在本文中,我们提出了一种称为Advdiff的新方法,以生成具有扩散模型的不受限制的对抗示例。我们设计了两种新型的对抗引导技术,以在扩散模型的反向生成过程中进行对抗采样。这两种技术通过解释的目标分类器的梯度来产生高质量的对抗性示例,在产生高质量的对抗性示例中是有效且稳定的。对MNIST和IMAGENET数据集的实验结果表明,Advdiff在产生无限制的对抗示例方面有效,在攻击性能和发电质量方面,其表现优于最先进的不受限制的对抗攻击方法。
•不受限制的对抗攻击旨在使用生成模型生成自然的对抗示例。•先前的攻击直接将类似PGD的梯度注入生成模型的采样,从而损害发电质量。