matrix3d:大型摄影测量模型多合一

我们提出了Matrix3d,这是一种执行多个摄影测量子任务的统一模型,包括使用相同的模型使用姿势估计,深度预测和新型视图合成。 MATRIX3D利用多模式扩散变压器(DIT)来整合几种模态的转换,例如图像,相机参数和深度图。 MATRIX3D大规模多模式训练的关键在于结合面具学习策略。即使有部分完整的数据,例如图像置态和图像深度对的双模式数据也可以实现全模式模型训练……

来源:Apple机器学习研究

我们提出了Matrix3d,这是一种执行多个摄影测量子任务的统一模型,包括使用相同的模型使用姿势估计,深度预测和新型视图合成。 MATRIX3D利用多模式扩散变压器(DIT)来整合几种模态的转换,例如图像,相机参数和深度图。 MATRIX3D大规模多模式训练的关键在于结合面具学习策略。即使通过部分完整的数据,例如图像置态和图像深度对的双模式数据,这也可以实现全模式模型训练,从而大大增加了可用训练数据的库。 MATRIX3D在姿势估计和新型视图综合任务中展示了最先进的性能。此外,它通过多轮交互提供了细粒度的控制,使其成为创建3D内容的创新工具。

†南京大学‡香港科学技术大学(HKUST)