EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……