详细内容或原文请订阅后点击阅览
我们准备好进行多图像推理了吗?推出 VH:Visual Haystacks 基准!
人类擅长处理大量视觉信息,这是实现通用人工智能 (AGI) 的关键技能。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来互动……
来源:ΑΙhubVisual Haystacks:第一个“以视觉为中心的”针中的针线(NIAH)基准测试,旨在在处理长篇小说视觉信息时严格评估大型多模型(LMM)。
Visual HaystacksTsung-Han(Patrick)Wu,Giscard Biamby,Jerome Quenum,Ritwik Gupta,Joseph E. Gonzalez,Trevor Darrell,David M. Chan Tsung-Han(Patrick)Wu Giscard Biamby Jerome Quenum Ritwik Gupta Joseph E. Gonzalez Trevor Darrell David M. Chan 人类擅长处理各种视觉信息,这对于实现人工通用智能(AGI)至关重要。在过去的几十年中,AI研究人员开发了视觉问题回答(VQA)系统,以解释单个图像中的场景并回答相关问题。尽管基础模型中的最新进步已经显着缩小了人类和机器视觉处理之间的差距,但传统的VQA一次仅限于一次仅对单个图像而不是全部视觉数据集合进行推理。 单人 在更复杂的情况下,此限制构成了挑战。以医学图像集合,通过卫星图像监测森林砍伐,使用自主导航数据绘制城市变化,分析大型艺术收集的主题元素或了解零售监视录像中的消费者行为的挑战,通过卫星图像绘制城市变化,对城市变化进行映射,从零售监测镜头中绘制森林砍伐。这些场景中的每一个都不仅需要在数百或数千个图像上进行视觉处理,而且还需要对这些发现进行跨图像处理。为了解决这一差距,该项目重点介绍了超过传统VQA系统触及的“多图像问答”(MIQA)任务。 如何在MIQA上基准VQA模型? 技术报告 视觉干草堆(VHS)的基准是什么? 检索 推理 单针挑战:在图像的干草堆中只有一个针图像。这个问题被框起来为“对于带有锚对象的图像,有目标对象吗?” llava-v1.5 GPT-4O 剪辑
Tsung-Han(Patrick)Wu,Giscard Biamby,Jerome Quenum,Ritwik Gupta,Joseph E. Gonzalez,Trevor Darrell,David M. Chan Tsung-Han(Patrick)Wu Giscard Biamby Jerome Quenum Ritwik Gupta Joseph E. Gonzalez Trevor Darrell David M. Chan 人类擅长处理各种视觉信息,这对于实现人工通用智能(AGI)至关重要。在过去的几十年中,AI研究人员开发了视觉问题回答(VQA)系统,以解释单个图像中的场景并回答相关问题。尽管基础模型中的最新进步已经显着缩小了人类和机器视觉处理之间的差距,但传统的VQA一次仅限于一次仅对单个图像而不是全部视觉数据集合进行推理。 单人 在更复杂的情况下,此限制构成了挑战。以医学图像集合,通过卫星图像监测森林砍伐,使用自主导航数据绘制城市变化,分析大型艺术收集的主题元素或了解零售监视录像中的消费者行为的挑战,通过卫星图像绘制城市变化,对城市变化进行映射,从零售监测镜头中绘制森林砍伐。这些场景中的每一个都不仅需要在数百或数千个图像上进行视觉处理,而且还需要对这些发现进行跨图像处理。为了解决这一差距,该项目重点介绍了超过传统VQA系统触及的“多图像问答”(MIQA)任务。 如何在MIQA上基准VQA模型? 技术报告 视觉干草堆(VHS)的基准是什么? 检索 推理 单针挑战:在图像的干草堆中只有一个针图像。这个问题被框起来为“对于带有锚对象的图像,有目标对象吗?” llava-v1.5 GPT-4O 剪辑 Tsung-Han(Patrick)Wu Giscard Biamby Jerome Quenum Ritwik Gupta Joseph E. GonzalezTrevor Darrell
David M. Chan 人类擅长处理各种视觉信息,这对于实现人工通用智能(AGI)至关重要。在过去的几十年中,AI研究人员开发了视觉问题回答(VQA)系统,以解释单个图像中的场景并回答相关问题。尽管基础模型中的最新进步已经显着缩小了人类和机器视觉处理之间的差距,但传统的VQA一次仅限于一次仅对单个图像而不是全部视觉数据集合进行推理。 单人 在更复杂的情况下,此限制构成了挑战。以医学图像集合,通过卫星图像监测森林砍伐,使用自主导航数据绘制城市变化,分析大型艺术收集的主题元素或了解零售监视录像中的消费者行为的挑战,通过卫星图像绘制城市变化,对城市变化进行映射,从零售监测镜头中绘制森林砍伐。这些场景中的每一个都不仅需要在数百或数千个图像上进行视觉处理,而且还需要对这些发现进行跨图像处理。为了解决这一差距,该项目重点介绍了超过传统VQA系统触及的“多图像问答”(MIQA)任务。 如何在MIQA上基准VQA模型? 技术报告 视觉干草堆(VHS)的基准是什么? 检索 推理 单针挑战:在图像的干草堆中只有一个针图像。这个问题被框起来为“对于带有锚对象的图像,有目标对象吗?” llava-v1.5 GPT-4O 剪辑David M. Chan