详细内容或原文请订阅后点击阅览
具有像素空间扩散模型的新型视图合成
从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索了编码几何的不同方法…
来源:Apple机器学习研究从单个输入图像中综合新的视图是一项具有挑战性的任务。传统上,通过估计场景深度,扭曲和钻孔来完成此任务,并通过机器学习模型实现了管道的一部分。最近,在新型视图合成(NVS)中越来越多地使用了生成模型,通常包含整个端到端系统。在这项工作中,我们适应了现代扩散模型体系结构,用于像素空间中的端到端NV,从而大大优于先前的最新技术(SOTA)技术。我们探索将几何信息编码到网络中的不同方法。我们的实验表明,尽管这些方法可以提高性能,但与利用改进的生成模型相比,它们的影响很小。此外,我们引入了一种新颖的NVS培训计划,该计划利用单视数据集,利用与多视图对应物相比的相对丰度。这导致了对具有域外内容的场景的提高概括能力。