SpatialClaw:NVIDIA 的 AI 空间推理新方法

SpatialClaw 是 NVIDIA Research 最新的 AI 框架,使代理能够通过可执行的 Python 代码编写、执行和完善自己的推理,而不是依赖预定义的工具调用。该方法无需额外培训即可在复杂的 3D 和 4D 任务中显着提高空间智能。

来源:Qudata

SpatialClaw:NVIDIA 的 AI 空间推理新方法

NVIDIA Research 推出了 SpatialClaw,这是一种全新的免训练框架,可显着改进 AI 代理处理三维和动态空间推理任务的方式。与依赖严格结构化工具调用或一次性代码生成的传统方法不同,SpatialClaw 允许视觉语言模型 (VLM) 支持的代理在持久、有状态的环境中使用可执行 Python 代码作为其主要操作接口。这种设计能够对复杂的视觉场景进行高度灵活、迭代和自适应的推理。

空间推理——理解 3D/4D 环境中的物体位置、关系、深度、运动和交互——仍然是现代 VLM 面临的最困难的挑战之一。虽然这些模型擅长语言和基本图像解释,但它们在精确的几何分析、多步骤推理以及涉及动态场景或多视点的任务方面经常表现不佳。现有的代理方法通过感知工具(例如分段器和深度估计器)增强了 VLM,但它们的潜力通常受到严格的动作接口的限制,这些接口限制了推理过程在执行过程中的演变。

SpatialClaw 通过维护一个持久的 Python 内核来解决这些限制,该内核预加载了来自 NumPy 和 SciPy 等库的输入帧、感知模块和几何基元。代理不是从预定义的命令中进行选择或预先提交完整的程序,而是逐步编写和执行代码。它可以:

  • 将感知输出视为普通的、可重用的 Python 变量;
  • 检查中间结果;
  • 根据执行反馈修改策略;
  • 组成推理过程中出现的复杂的、特定于任务的几何计算。
  • 完整的项目,包括代码、详细的推理轨迹、演示文稿和研究论文,可在 SpatialClaw 网页和 GitHub 上获取。