我们解决了场景中检测出偏置(OOC)对象的问题。给定图像,我们的目的是确定图像是否具有在通常的上下文中不存在的对象并定位此类OOC对象。现有的OOC检测方法取决于根据手动构造的特征定义共同的上下文,例如对象的同时存在,对象之间的空间关系以及对象的形状和大小,然后学习给定数据集的上下文。但上下文通常是从非常普遍到非常令人惊讶的不等式的。,从特定数据集中获得的学习上下文可能不会被赋予一般性,因为数据集可能并不能真正代表上下文中事物的人类否定。是由大型语言模型的成功和更普遍的基础模型(FMS)在常识推理中的动机所激发的,我们研究了FM捕获上下文概念的FM的能力。我们发现,诸如GPT-4之类的预训练的FM提供了更细微的OOC概念,并且当与其他预训练的FMS结合以进行字幕生成(例如BLIP-2)(例如BLIP-2),并与sta-ble扩散2.0进行图像。我们的方法不需要任何数据集特定培训。我们在两个OOC对象检测数据集上演示了我们的AP的效率,在MIT-OOC数据集上实现了90.8%的零弹药精度,而IJCAI22-Coco-OC-OOC数据集则在IJCAI222222222的数据集上实现了87.26%。
主要关键词