具有像素空间扩散模型的新型视图合成

从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…

来源:Apple机器学习研究

从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索将几何信息编码到网络中的不同方法。我们的实验表明,尽管这些方法可以提高性能,但与利用改进的生成模型相比,它们的影响很小。此外,我们引入了一种新颖的NVS培训计划,该计划利用单视数据集,利用与多视图对应物相比的相对丰度。这导致了对具有域外内容的场景的提高概括能力。

图1。新型视图合成来自我们的扩散模型。源视图取自Realestate10k,并馈入我们的基础和SR模型以产生256x256像素预测。我们的端到端系统隐含地学会了保留源视图中的功能,将其位置与摄像机移动一起改变,并在看不见的区域产生逼真的细节。
图1。新型视图合成来自我们的扩散模型。源视图取自Realestate10k,并馈入我们的基础和SR模型以产生256x256像素预测。我们的端到端系统隐含地学会了保留源视图中的功能,将其位置与摄像机移动一起改变,并在看不见的区域产生逼真的细节。