从事物所在到用途：多模式法学硕士的空间功能智能基准测试 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

从事物所在到用途：多模式法学硕士的空间功能智能基准测试

2026年5月6日 00:00 33 Comments

来源:Apple机器学习研究

多模式代理的真正空间智能超越了低级几何感知，从了解事物的位置发展到理解它们的用途。虽然 VSI-Bench 等现有基准可以有效评估这一基础几何阶段，但它们未能探索基础智能所必需的高阶认知能力。为了弥补这一差距，我们引入了空间功能智能基准 (SFI-Bench)，这是一个基于视频的基准，包含来自多样化、以自我为中心的室内视频扫描的 1700 多个问题。 SFI-Bench 旨在系统地评估高级推理的两个互补维度：(1) 结构化空间推理，理解复杂的布局并形成连贯的空间表示，以及 (2) 功能推理，推断对象可供性和上下文相关的效用。其任务包括条件计数、多跳关系推理、功能配对和基于知识的故障排除，直接挑战模型集成感知、记忆和推理的能力。我们的实验表明，当前的 MLLM 始终难以将空间记忆与功能和外部知识整合起来，这凸显了一个关键瓶颈。因此，SFI-Bench 提供了一个重要的工具，用于衡量和推动朝着更具认知能力和真正扎根的多模式代理的进步。

† Mila，蒙特利尔大学

‡ 纽约大学

** 在 Apple 期间完成的工作

必需的 Bench 故障排除推理理解记忆当前的复杂的重要的感知相关的扫描的完成的多样化代理的中心的可供性功能多模式智能能力认知基准空间连贯的 SFI

从事物所在到用途：多模式法学硕士的空间功能智能基准测试

其他外部链接

Tags

XiaoMi-AI