尽管它们取得了成功,但人们并不总是清楚,在多大程度上真正的多模态推理和理解对于解决当前的许多任务和数据集是必需的。例如,有人指出,语言可能会无意中强加强大的先验,从而产生看似令人印象深刻的性能,而对底层模型中的视觉内容却没有任何理解 [15]。在 VQA [3] 中也发现了类似的问题,其中没有复杂多模态理解的简单基线表现非常好 [94, 35, 1, 26],在多模态机器翻译 [18, 74] 中,图像被发现相对重要 [13, 17, 7]。在这项工作中,我们提出了一个旨在衡量真正的多模态理解和推理的挑战集,具有直接的评估指标和直接的真实世界用例。