摘要。预先训练的扩散模型和3D一代的最新进展促使人们对创建4D含量促进了兴趣。然而,实现高保真4D代的时空一致性仍然是一个挑战。在这项工作中,我们提出了STAG4D,这是一个新颖的框架,将预训练的扩散模型与动态3D高斯式相结合,用于高保真4D代。从3D生成技术中汲取灵感,我们利用多视图扩散模型来初始化锚定在输入视频帧上的多视图图像,在该框架上可以通过视频扩散模型捕获或生成视频。为了确保多视图序列初始化的时间一致性,我们引入了一种简单而有效的融合策略,以利用第一个框架作为自我注意计算中的时间锚。使用几乎一致的多视图序列,我们应用得分蒸馏采样以优化4D高斯点云。4D高斯吐痰是专门为生成任务而设计的,其中提出了一种自适应致密化策略,以减轻不稳定的高斯疗程以进行强大的优化。值得注意的是,所提出的管道不需要对扩散网络进行任何预训练或微调,而为4D代任务提供了更容易且更实用的解决方案。的实验实验表明,我们的方法优于先前的4D代作品在呈现质量,时空的一致性和生成鲁棒性方面起作用,从而为4d代创造了新的最先进的产品,从不同的投入中,包括文本,图像和视频。
主要关键词