提出了视觉问题回答(VQA)任务8年后,准确性仍然是自动评估的主要指标。VQA准确性在IID评估设置中一直有效。但是,我们的社区正在转向开放式生成模型和OOD评估。在这个新的范式中,现有的VQA准确度度量过于严格,低估了VQA系统的性能。因此,有必要开发更强大的自动VQA指标,以作为人类判断的代理。在这项工作中,我们建议利用教学调节的大语言模型(LLMS)的文化学习能力来构建更好的VQA指标。我们将VQA评估作为答案评估任务,其中指示LLM给出一组参考答案的候选人答案的准确性。与几种VQA模型和基准的现有指标相比,我们证明了所提出的指标与人类判断的更好相关。我们希望广泛采用我们的指标将有助于更好地估计VQA任务的研究进度。我们计划发布评估法规并收集人类判断。