摘要。鉴于对最近的基于视觉模型的大规模多模式培训及其概括能力,因此了解其鲁棒性的程度对于他们的现实世界部署至关重要。在这项工作中,我们的目标是评估当前基于视觉模型的弹性,以应对不同的对象到后环上下文变化。大多数鲁棒性评估方法都引入了合成数据集,以引起对物体特征(观点,比例,颜色)的变化或实际图像上使用的图像转换技术(对抗性变化,常见的损坏),以模拟分离中的变化。最近的作品探索了利用大型语言模式和di!使用模型来产生背景变化。但是,这些方法要么缺乏对要进行的更改或扭曲对象语义的控制,从而使它们不适合任务。另一方面,我们的方法可以诱导各种对象兼容地面变化,同时保留对象的原始语义和对象的真实性。为了实现这一目标,我们利用文本对图像,图像到文本和图像对段的生成能力自动生成广泛的对象到背景的变化。我们通过修改文本提示或优化文本模型的潜伏期和Textual嵌入来引起自然和对抗背景的变化。这使我们能够量化背景上下文在理解深神经网络的鲁棒性和一般性中的作用。我们生产了各种版本的标准视觉数据集(Imagenet,Coco),将多样的和相同的背景纳入图像中,或在背景中引入颜色,纹理和对抗性变化。我们进行了彻底的实验,并对基于视觉模型的鲁棒性与对象之间的背景环境之间的鲁棒性进行了深入的分析。我们的代码和评估基准将在https://github.com/muhammad-huzaifaa/ObjectCompose上找到。
主要关键词