多模式嵌入式编码文本,图像,热图像,声音和视频中的单个嵌入空间,对跨不同方式的对齐表示(例如,,将狗的图像与吠叫声相关联)。在本文中,我们表明多模式的嵌入可能容易受到我们称为“对抗幻觉的攻击”。给定图像或声音,对手可以扰动它,以使其嵌入接近另一种模式中的任意,对手选择的输入。这些攻击是跨模式和目标的:对手可以将任何图像或声音与他选择的任何目标保持一致。广泛的幻觉利用了嵌入空间中的邻近性,因此对下游任务和方式不可知,从而实现了当前和将来的任务的批发妥协,以及对敌方无法获得的方式。使用Imbind和AudioClip嵌入,我们演示了对抗性输入,在不了解特定下游任务,误解图像生成,文本生成,零拍,零拍摄和音频检索的情况下生成的对准输入是如何对准的。我们调查了跨不同嵌入式嵌入方式的幻觉的可转移性,并开发了我们方法的黑盒版本,我们用来证明对亚马逊商业专有泰坦嵌入的第一个对抗性对齐攻击。最后,我们分析了对策和逃避攻击。