详细内容或原文请订阅后点击阅览
EncQA:图表视觉编码的视觉语言模型基准测试
多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……
来源:Apple机器学习研究多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,可均衡覆盖 6 个视觉编码通道(位置、长度、面积、颜色定量、颜色标称和形状)和 8 个任务(查找极值、检索值、查找异常、过滤值、精确计算导出值、计算导出值相对值、关联值和相对关联值)。我们对 9 个最先进的 VLM 的评估表明,同一任务中不同编码以及不同任务之间的性能差异很大。与预期相反,我们观察到许多任务编码对的性能并没有随着模型大小的增加而提高。我们的结果表明,推进图表理解需要有针对性的策略来解决特定的视觉推理差距,而不是仅仅扩大模型或数据集的大小。
- † 斯坦福大学‡ 在 Apple 期间完成的工作
