mm空间:在多模式LLMS中探索3D空间理解

多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,也……

来源:Apple机器学习研究

多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,它也可以在包括我们自己的包括我们自己的3D空间理解基准上实现最先进的性能。我们展示了如何合并度量深度和多视图输入(在CA-VQA中提供)可以进一步改善3D理解,并证明单独的数据允许我们的模型实现与专用的单眼深度估计模型相当的深度感知能力。

图1 :(左)我们生成Cubify任何内容(CA-VQA)数据集和基准测试,覆盖各种1)输入信号:单图像,度量深度(基于传感器和估计的),多帧/ - 视图和2)空间理解任务:e.g.,关系预测,度量估计,3D地面。 (右)我们训练MM-Spatial,这是一种通才的多模式LLM,在3D空间理解方面表现出色。它支持涉及2D接地和深度估计的经过思考的空间推理,还可以通过工具使用来利用深度输入。