详细内容或原文请订阅后点击阅览
mm空间:在多模式LLMS中探索3D空间理解
多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,也……
来源:Apple机器学习研究多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,它也可以在包括我们自己的包括我们自己的3D空间理解基准上实现最先进的性能。我们展示了如何合并度量深度和多视图输入(在CA-VQA中提供)可以进一步改善3D理解,并证明单独的数据允许我们的模型实现与专用的单眼深度估计模型相当的深度感知能力。
