在3D视觉问题回答(3D VQA)中,完全注释的数据的稀缺性和有限的视觉内容多样性阻碍了对新型场景和3D概念的概括(例如,在Scanqa和SQA数据集中仅利用了大约800个场景)。当前的方法通过2D信息来制作Resort补充3D。但是,这些方法面临挑战:他们要么使用自上而下的2D视图,这些视图引发了过于复杂的,有时甚至是问题,要么依赖于2D VLMS的全球汇总场景/图像级表示,从而失去了良好的视觉效果 - 语言相关性。为了克服这些局限性,我们的方法采用了问题条件2D查看选择程序,从而指出了至关重要的视觉线索的语义相关的2D输入。然后,我们通过两支分支变压器结构将此2D知识集成到3D-VQA系统中。这种结构具有双转化器的特征,将2D和3D模态和结合方式结合在一起,并结合了模态之间的细粒度相关性,从而使它们互相增强。整合了上面提出的机制,我们提出了BridgeQa,该机制为3D-VQA的多模式变压器架构提供了新的视角。实验验证了BridgeQA可以在3D-VQA数据集上实现最新技术,并显着超过现有的解决方案。代码可在https:// github上找到。com/matthewdm0816/bridgeqa。
提出了视觉问题回答(VQA)任务8年后,准确性仍然是自动评估的主要指标。VQA准确性在IID评估设置中一直有效。但是,我们的社区正在转向开放式生成模型和OOD评估。在这个新的范式中,现有的VQA准确度度量过于严格,低估了VQA系统的性能。因此,有必要开发更强大的自动VQA指标,以作为人类判断的代理。在这项工作中,我们建议利用教学调节的大语言模型(LLMS)的文化学习能力来构建更好的VQA指标。我们将VQA评估作为答案评估任务,其中指示LLM给出一组参考答案的候选人答案的准确性。与几种VQA模型和基准的现有指标相比,我们证明了所提出的指标与人类判断的更好相关。我们希望广泛采用我们的指标将有助于更好地估计VQA任务的研究进度。我们计划发布评估法规并收集人类判断。