Loading...
机构名称:
¥ 1.0

认知科学家先驱3D空间推理是所有智力过程的基础。多模式大型语言模型(MLMS)由于对2D图像的印象令人印象深刻而被广泛采用,已被证明缺乏3D空间推理。对这些模型赋予的精确3D空间功能的评估有限。现有的基准用于探测MLMS中空间理解的基准主要集中于粗级空间意识(例如在左侧的左侧),或在预测给定对象查询的边界框时。相反,我们希望对模型对整个场景的语义和空间理解进行更全面的评估。因此,我们提出了一个基准R2D3,其中MLM的任务是将2D图像表示为具有精确3D位置和姿势的一组语义资产,该姿势可以准确地重建图形引擎中的3D场景。“通过综合分析”的这一任务要求该模型对组成场景及其精确3D相对位置的元素有全面的了解。我们的基准包括AI2THOR环境中的12K室内场景,并且与几个下游应用程序(例如体现的AI,空间推理和导航任务)兼容。使用我们的基准测试,我们探索了鼓励精确空间推理的MLM的调整技术。出乎意料的是,我们发现在基准的训练集上进行的常规微调虽然足以理解语义,但不足以了解场景中对象的精确3D位置和姿势。包括深度或通过标记图像中的点以及在训练期间包括其3D坐标(包括其3D坐标)的深度或传达精确的摄像机场取向,使该模型可以在测试时改进3D空间估计。我们希望R2D3基准测试将有助于探索探索设计选择的进步,从而改善对MLMS的精确3D空间理解。

R2D3:通过重建3D ...

R2D3:通过重建3D ...PDF文件第1页

R2D3:通过重建3D ...PDF文件第2页

R2D3:通过重建3D ...PDF文件第3页

R2D3:通过重建3D ...PDF文件第4页

R2D3:通过重建3D ...PDF文件第5页

相关文件推荐

2020 年
¥1.0
2025 年

...

¥8.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0
2025 年

...

¥7.0
2015 年

...

¥1.0
2018 年
¥1.0
2024 年

...

¥31.0
2013 年

...

¥4.0
2021 年
¥3.0
2024 年
¥3.0
2024 年

...

¥5.0
2021 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2020 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年

...

¥7.0
2021 年

...

¥21.0
2024 年

...

¥1.0
2024 年
¥1.0
2022 年
¥1.0
2020 年

...

¥1.0
2020 年
¥4.0