详细内容或原文请订阅后点击阅览

SpatialClaw：NVIDIA 的 AI 空间推理新方法

2026年6月25日 09:00 33 Comments

SpatialClaw 是 NVIDIA Research 最新的 AI 框架，使代理能够通过可执行的 Python 代码编写、执行和完善自己的推理，而不是依赖预定义的工具调用。该方法无需额外培训即可在复杂的 3D 和 4D 任务中显着提高空间智能。

来源:Qudata

SpatialClaw：NVIDIA 的 AI 空间推理新方法

NVIDIA Research 推出了 SpatialClaw，这是一种全新的免训练框架，可显着改进 AI 代理处理三维和动态空间推理任务的方式。与依赖严格结构化工具调用或一次性代码生成的传统方法不同，SpatialClaw 允许视觉语言模型 (VLM) 支持的代理在持久、有状态的环境中使用可执行 Python 代码作为其主要操作接口。这种设计能够对复杂的视觉场景进行高度灵活、迭代和自适应的推理。

空间推理——理解 3D/4D 环境中的物体位置、关系、深度、运动和交互——仍然是现代 VLM 面临的最困难的挑战之一。虽然这些模型擅长语言和基本图像解释，但它们在精确的几何分析、多步骤推理以及涉及动态场景或多视点的任务方面经常表现不佳。现有的代理方法通过感知工具（例如分段器和深度估计器）增强了 VLM，但它们的潜力通常受到严格的动作接口的限制，这些接口限制了推理过程在执行过程中的演变。

SpatialClaw 通过维护一个持久的 Python 内核来解决这些限制，该内核预加载了来自 NumPy 和 SciPy 等库的输入帧、感知模块和几何基元。代理不是从预定义的命令中进行选择或预先提交完整的程序，而是逐步编写和执行代码。它可以：

将感知输出视为普通的、可重用的 Python 变量；

检查中间结果；

根据执行反馈修改策略；

组成推理过程中出现的复杂的、特定于任务的几何计算。

完整的项目，包括代码、详细的推理轨迹、演示文稿和研究论文，可在 SpatialClaw 网页和 GitHub 上获取。

严格的视觉场景复杂的感知代码新方法输入仍然是传统方法接口自适应执行估计器 NVIDIA 深度推理 Python 工具适应的代理处代理详细的支持的普通的 VLM 限制预定义困难的 SpatialClaw 完整的 AI 现有的精确的根据几何计算全新的动态过程持久的

SpatialClaw：NVIDIA 的 AI 空间推理新方法

SpatialClaw：NVIDIA 的 AI 空间推理新方法

其他外部链接

Tags

XiaoMi-AI