带有显式3D建模的世界一致的视频扩散

作为主导视觉内容生成的扩散模型,已经努力使这些模型适应多视图图像生成以创建3D内容。传统上,这些方法通过仅产生RGB框架来隐式学习3D一致性,这可以导致培训中的工件和效率低下。相比之下,我们建议在RGB框架并肩生成归一化坐标空间(NCS)框架。 NCS框架捕获每个像素的全局坐标,为3D一致性提供了强大的像素对应关系和明确的监督。另外,通过共同估计RGB和NCS框架…

来源:Apple机器学习研究

作为主导视觉内容生成的扩散模型,已经努力使这些模型适应多视图图像生成以创建3D内容。传统上,这些方法通过仅产生RGB框架来隐式学习3D一致性,这可以导致培训中的工件和效率低下。相比之下,我们建议在RGB框架并肩生成归一化坐标空间(NCS)框架。 NCS框架捕获每个像素的全局坐标,为3D一致性提供了强大的像素对应关系和明确的监督。此外,通过在训练过程中共同估算RGB和NCS框架,我们的方法使我们能够通过在DeNoising期间采用的介入策略来推断其有条件的分布。例如,在地面真相RGB帧的情况下,我们可以对NCS框架进行涂漆并估算摄像头姿势,从而促进未经图像的相机估计。我们在各种数据集上训练模型。通过广泛的实验,我们证明了其将多个与3D相关任务集成到统一框架中的能力,从而为基础3D模型设定了新的基准。

图1:拟议世界一致的视频扩散模型的管道。

    †香港中国大学在Apple
  • †香港中文大学
  • •在Apple