Loading...
机构名称:
¥ 1.0

鉴于通过扩散模型在图像生成中取得的显着成就,研究界表明,对将这些模型扩展到视频生成的兴趣越来越大。视频生成的最新扩散模型主要利用注意层提取时间特征。但是,注意层受其记忆消耗的限制,这随序列的长度四倍增加。在尝试使用扩散模型生成更长的视频序列时,这一限制提出了重大挑战。为了克服这一挑战,我们提出了利用状态空间模型(SSM)。SSM最近由于其线性记忆消耗相对于序列长度而成为可行的替代方案。在实验中,我们首先使用UCF101(视频生成的标准基准)评估了基于SSM的模型。此外,为了调查SSM对更长的视频生成的潜力,我们使用Minerl导航数据集执行了一个实验,将帧数变化为64、200和400。在这些设置中,我们的基于SSM的模型可以为更长的序列节省内存消耗,同时将竞争性的FVD分数保持在基于注意力的模型中。

SSM满足视频扩散模型

SSM满足视频扩散模型PDF文件第1页

SSM满足视频扩散模型PDF文件第2页

SSM满足视频扩散模型PDF文件第3页

SSM满足视频扩散模型PDF文件第4页

SSM满足视频扩散模型PDF文件第5页