详细内容或原文请订阅后点击阅览
STARFlow-V:具有标准化流程的端到端视频生成建模
归一化流 (NF) 是基于端到端似然性的连续数据生成模型,最近因在图像生成方面取得的令人鼓舞的进展而重新受到关注。然而,在视频生成领域,时空复杂性和计算成本要高得多,最先进的系统几乎完全依赖于基于扩散的模型。在这项工作中,我们通过展示 STARFlow-V 重新审视这个设计空间,这是一种基于流的归一化视频生成器,具有端到端学习、强大的因果预测和本机似然估计等显着优势……
来源:Apple机器学习研究归一化流 (NF) 是基于端到端似然性的连续数据生成模型,最近因在图像生成方面取得的令人鼓舞的进展而重新受到关注。然而,在视频生成领域,时空复杂性和计算成本要高得多,最先进的系统几乎完全依赖于基于扩散的模型。在这项工作中,我们通过展示 STARFlow-V 重新审视这个设计空间,这是一种基于流的归一化视频生成器,具有端到端学习、强大的因果预测和本机似然估计等显着优势。 STARFlow-V 以最近提出的 STARFlow 为基础,在时空潜在空间中运行,具有全局局部架构,该架构将因果依赖性限制在全局潜在空间中,同时保留丰富的局部帧内交互。这可以缓解随着时间的推移而积累的误差,这是标准自回归扩散模型生成的常见陷阱。此外,我们提出了流分数匹配,它为模型配备了轻量级因果降噪器,以自回归方式提高视频生成的一致性。为了提高采样效率,STARFlow-V 采用视频感知雅可比迭代方案,将内部更新重新构建为可并行迭代,而不会破坏因果关系。由于可逆结构,同一模型可以原生支持文本到视频、图像到视频以及视频到视频生成任务。根据经验,STARFlow-V 相对于基于扩散的基线,通过实际采样吞吐量实现了强大的视觉保真度和时间一致性。据我们所知,这些结果首次证明 NF 能够生成高质量的自回归视频,使它们成为构建世界模型的一个有前景的研究方向。
