最近的作品表明,文本到图像生成模型非常容易受到各种中毒攻击的影响。经验结果发现,这些模型可以通过改变单个文本提示和相关视觉特征之间的提示来破坏。此外,许多并发的中毒攻击可能引起“模型内爆”,在该模型无法为未加入的提示中产生有意义的图像。这些引人入胜的发现突出了缺乏直观的框架来理解对这些模型的中毒攻击。在这项工作中,我们通过对潜在扩散模型中的跨注意机制的行为进行调整和分析,建立了图像生成模型的易绝化的第一个分析框架。我们将跨注意训练模拟为“监督图对齐”的抽象问题,并通过对齐难度(AD)度量来正式量化训练数据的影响。广告越高,对齐越难。我们证明,广告随着中毒的个别提示(或概念)的数量而增加。随着广告的增长,对齐任务变得越来越困难,产生了高度扭曲的结果,这些结果经常绘制有意义的文本提示到未定义或毫无意义的视觉表示。因此,生成模型爆炸并输出随机,整个图像。我们通过广泛的实验来验证我们的分析框架,并在产生新的,不可预见的见解时确认并解释了模型内爆的意外(和无法解释的)效果。我们的工作提供了一种有用的工具,用于研究针对扩散模型及其防御能力的中毒攻击。
主要关键词