摘要。我们提出了4DIFF,这是一个解决Exo-to-ego视图转换任务的3D引起的扩散模型 - 从相应的第三人称(Exentric)图像中生成第一人称(Ego-go-Imentric)查看图像。建立扩散模型生成光地式图像的能力,我们提出了一个基于变压器的扩散模型,该模型通过两种机制对几何学进行了评分:(i)Egocentric Point Cloud Rasterization和(II)3D意识到的旋转旋转交叉注意。以中心的点云栅格化将输入外向图像转换为以自我为中心的布局,后者随后被扩散图像变压器使用。作为扩散变压器的DeNoiser块的组成部分,3D感知的旋转跨注意事件进一步结合了从源exentric视图中的3D信息和半出现特征。我们的4DIFF在挑战性和多样化的自我exo4d多视图数据集上实现了状态的结果,并展示了对训练期间未遇到的新型环境的强大概括。我们的代码,处理过的数据和预处理的模型可在https://klauscc.github.io/4diff上公开获取。
主要关键词