STARFlow-V：具有标准化流程的端到端视频生成建模 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

STARFlow-V：具有标准化流程的端到端视频生成建模

2026年4月30日 00:00 33 Comments

来源:Apple机器学习研究

归一化流 (NF) 是基于端到端似然性的连续数据生成模型，最近因在图像生成方面取得的令人鼓舞的进展而重新受到关注。然而，在视频生成领域，时空复杂性和计算成本要高得多，最先进的系统几乎完全依赖于基于扩散的模型。在这项工作中，我们通过展示 STARFlow-V 重新审视这个设计空间，这是一种基于流的归一化视频生成器，具有端到端学习、强大的因果预测和本机似然估计等显着优势。 STARFlow-V 以最近提出的 STARFlow 为基础，在时空潜在空间中运行，具有全局局部架构，该架构将因果依赖性限制在全局潜在空间中，同时保留丰富的局部帧内交互。这可以缓解随着时间的推移而积累的误差，这是标准自回归扩散模型生成的常见陷阱。此外，我们提出了流分数匹配，它为模型配备了轻量级因果降噪器，以自回归方式提高视频生成的一致性。为了提高采样效率，STARFlow-V 采用视频感知雅可比迭代方案，将内部更新重新构建为可并行迭代，而不会破坏因果关系。由于可逆结构，同一模型可以原生支持文本到视频、图像到视频以及视频到视频生成任务。根据经验，STARFlow-V 相对于基于扩散的基线，通过实际采样吞吐量实现了强大的视觉保真度和时间一致性。据我们所知，这些结果首次证明 NF 能够生成高质量的自回归视频，使它们成为构建世界模型的一个有前景的研究方向。

† 宾夕法尼亚大学

‡ 伊利诺伊大学厄巴纳-香槟分校

** 在 Apple 期间完成的工作

因果关系自回归工作中时间的 STARFlow 吞吐量似然估计扩散的因果先进的完成的提高质量模型设计空间保真度视频强大的一致性 NF 提出的局部高质量的丰富的质量的积累的采样迭代生成依赖性模型生成模型的端到端复杂性时空进展扩散模型计算成本根据图像生成归一化架构

STARFlow-V：具有标准化流程的端到端视频生成建模

其他外部链接

Tags

XiaoMi-AI