我们提出了一种基于保证金的损失,用于调整联合视觉语言模型,以便其基于梯度的解释与人类为相对较小的接地数据集提供的区域级注释一致。我们将这一目标作为注意掩盖一致性(AMC),并证明它比以前依靠使用视觉模型来评分对象检测器的输出的方法产生了较高的视觉接地结果。尤其是,在标准视觉模型目标之上训练AMC的模型获得了86的最新精度。在Flickr30k视觉接地基准中49%,绝对改进为5。38%与在相同水平的监督下训练的最佳先前型号时。我们的方法在既定的基准中都表现出色,可以在易于测试中获得80.34%的准确性,而在较难分裂中获得了80.34%的准确性,而在易于测试中的精度为64.55%。AMC有效,易于实现,并且是一般的,因为任何视觉模型都可以采用,并且可以使用任何类型的区域注释。
主要关键词