从事物所在到用途:多模式法学硕士的空间功能智能基准测试

多模式代理的真正空间智能超越了低级几何感知,从了解事物的位置发展到理解它们的用途。虽然 VSI-Bench 等现有基准可以有效评估这一基础几何阶段,但它们未能探索基础智能所必需的高阶认知能力。为了弥补这一差距,我们引入了空间功能智能基准 (SFI-Bench),这是一个基于视频的基准,包含来自多样化、以自我为中心的室内视频扫描的 1700 多个问题。 SFI-Bench 旨在...

来源:Apple机器学习研究

多模式代理的真正空间智能超越了低级几何感知,从了解事物的位置发展到理解它们的用途。虽然 VSI-Bench 等现有基准可以有效评估这一基础几何阶段,但它们未能探索基础智能所必需的高阶认知能力。为了弥补这一差距,我们引入了空间功能智能基准 (SFI-Bench),这是一个基于视频的基准,包含来自多样化、以自我为中心的室内视频扫描的 1700 多个问题。 SFI-Bench 旨在系统地评估高级推理的两个互补维度:(1) 结构化空间推理,理解复杂的布局并形成连贯的空间表示,以及 (2) 功能推理,推断对象可供性和上下文相关的效用。其任务包括条件计数、多跳关系推理、功能配对和基于知识的故障排除,直接挑战模型集成感知、记忆和推理的能力。我们的实验表明,当前的 MLLM 始终难以将空间记忆与功能和外部知识整合起来,这凸显了一个关键瓶颈。因此,SFI-Bench 提供了一个重要的工具,用于衡量和推动朝着更具认知能力和真正扎根的多模式代理的进步。

  • † Mila,蒙特利尔大学
  • ‡ 纽约大学
  • ** 在 Apple 期间完成的工作