我们介绍了Exo2EGO-V,这是一种新颖的以外为中心为中心的基于质量扩散的视频生成方法,用于日常生活熟练的人类活动,其中稀疏4-视图中心的观点在现场周围配置了360°。由于外主和以自我为中心的观点和动态运动和现实世界中日常生活环境之间的显着差异,此任务尤其具有挑战性。为了应对这些挑战,我们首先提出了一种新的基于扩散的多视图外科编码器,以从多视图exentric视频中提取密集的多尺度功能,作为以自我为中心视频的外观条件。然后,我们在提供空间对立的自我中心特征之前设计了一个自以为是至中心的视图翻译,作为对以egipentric视频扩散模型的输入的串联指导。最后,我们将时间关注层引入我们的以自我为中心的视频扩散管道中,以改善温度一致性跨eg中心框架。广泛的实验表明,Exo2EGO-V从EGO-EXO4D数据集中显着超过SOTA方法,而LPIP的平均为35%。我们的代码和模型将在https://github.com/showlab/exo2ego-v上提供。
主要关键词