详细内容或原文请订阅后点击阅览
我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准测试!
人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来解释单个图像中的场景并回答相关问题。虽然基础模型的最新进展大大缩小了人类和机器视觉处理之间的差距,但传统的 VQA 仅限于一次推理单个图像,而不是整个视觉数据集合。这种限制在更复杂的场景中带来了挑战。例如,辨别医学图像集合中的模式、通过卫星图像监测森林砍伐、使用自动导航数据绘制城市变化、分析大型艺术收藏中的主题元素或从零售监控录像中了解消费者行为等挑战。这些场景中的每一个不仅需要对数百或数千张图像进行视觉处理,还需要对这些发现进行跨图像处理。为了弥补这一差距,本项目专注于“多图像问答”(MIQA)任务,这超出了传统 VQA 系统的范围。Visual Haystacks:第一个“以视觉为中心”的 Needle-In-A-Haystack (NIAH) 基准测试,旨在严格评估大型多模态模型 (LMM) 在处理长上下文视觉信息方面的能力。如何在 MIQA 上对 VQA 模型进行基准测试?“Needle-In-A-Haystack”
来源:BAIR人类擅长处理各种视觉信息,这对于实现人工通用智能(AGI)至关重要。在过去的几十年中,AI研究人员开发了视觉问题回答(VQA)系统,以解释单个图像中的场景并回答相关问题。尽管基础模型中的最新进步已经显着缩小了人类和机器视觉处理之间的差距,但传统的VQA一次仅限于一次仅对单个图像而不是全部视觉数据集合进行推理。
单人在更复杂的情况下,此限制构成了挑战。以医学图像集合,通过卫星图像监测森林砍伐,使用自主导航数据绘制城市变化,分析大型艺术收集的主题元素或了解零售监视录像中的消费者行为的挑战,通过卫星图像绘制城市变化,对城市变化进行映射,从零售监测镜头中绘制森林砍伐。这些场景中的每一个都不仅需要在数百或数千个图像上进行视觉处理,而且还需要对这些发现进行跨图像处理。为了解决这一差距,该项目重点介绍了超过传统VQA系统的多图像问题回答(MIQA)任务。
Visual Haystacks:第一个“以视觉为中心的”针中的针刺(NIAH)基准测试,旨在严格评估大型多模式模型(LMMS),以处理长篇小说视觉信息。
Visual Haystacks如何在MIQA上基准VQA模型?
Google在GEMINI-V1.5技术报告中引入了第一个用于视觉推理的NIAH基准。在本报告中,他们要求模型在大型视频中的单个框架上检索覆盖的文本。事实证明,现有模型在这项任务上的表现很好,主要是由于其强大的OCR检索功能。但是,如果我们问更多视觉问题怎么办?模型仍然可以表现出色吗?
技术报告