MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs
多模式的大语言模型(MLLM)在2D视觉理解中出色,但在推理3D空间的能力方面仍然有限。在这项工作中,我们利用带有开放设定注释的大规模高质量3D场景数据来介绍1)新型监督的微调数据集和2)一个新的评估基准,重点是室内场景。我们将任何VQA(CA-VQA)数据的内容涵盖了各种空间任务,包括空间关系预测,度量大小和距离估计以及3D接地。我们表明,CA-VQA使我们能够训练MM-Spatial,这是一个强大的通才MLLM,也……