EncQA: Benchmarking Vision-Language Models on Visual Encodings for Charts
多模态视觉语言模型 (VLM) 在图表理解基准上的得分不断提高。然而,我们发现这一进展并没有完全体现解释图表所必需的视觉推理能力的广度。我们引入了 EncQA,这是一种基于可视化文献的新颖基准,旨在提供对图表理解至关重要的视觉编码和分析任务的系统覆盖。 EncQA 提供 2,076 个合成问答对,实现六个视觉编码通道的均衡覆盖(位置、长度、面积、颜色……
Why Task-Based Evaluations Matter
本文改编自我在Deeplearn 2025上的演讲系列:从原型到生产:代理应用程序的评估策略。基于TASK的评估,该评估衡量了AI系统在用例特异性,现实世界中的表现,不足和本局的研究。在AI文献上,仍然对基础模型基准有了重点。基准测试对于进行研究和比较广泛的一般能力至关重要,但是它们很少干净地转化为特定于任务的性能。为什么基于任务的评估重要的帖子首先出现在数据科学方面。