stiv:可扩展的文本和图像条件视频生成

视频生成领域取得了显着的进步,但是仍然需要清晰,系统的食谱,可以指导健壮和可扩展模型的开发。在这项工作中,我们介绍了一项全面的研究,该研究系统地探讨了模型体系结构,培训配方和数据策略的相互作用,最终以一种名为STIV的简单且可扩展的文本图像条件的视频生成方法。我们的框架将图像条件通过框架更换整合到扩散变压器(DIT)中,同时通过…

来源:Apple机器学习研究

视频生成领域取得了显着的进步,但是仍然需要清晰,系统的食谱,可以指导健壮和可扩展模型的开发。在这项工作中,我们介绍了一项全面的研究,该研究系统地探讨了模型体系结构,培训配方和数据策略的相互作用,最终以一种名为STIV的简单且可扩展的文本图像条件的视频生成方法。我们的框架将图像条件通过框架更换整合到扩散变压器(DIT)中,同时通过连接图像文本条件的无分类器指导结合文本调节。该设计使STIV能够同时执行文本对视频(T2V)和文本图像到视频(TI2V)任务。此外,通过对T2I,T2V和TI2V的全面消融研究,STIV可以轻松地扩展到各种应用程序,例如视频预测,框架插值,多视频生成以及长期的视频生成等。一个具有512分辨率的8.7b模型在VBENCH T2V上达到83.1,超过了诸如Cogvideox-5B,Pika,Kling和Gen-3(例如Cogvideox-5b)的领先开放和闭合源模型。同一大小的模型还可以在512分辨率下在VBENCH I2V任务上实现90.1的最新结果。通过为构建尖端视频生成模型提供透明且可扩展的食谱,我们旨在增强未来的研究,并加速进度,朝着更广泛和可靠的视频生成解决方案发展。

    †加利福尼亚大学,洛杉矶大学**在Apple
  • †加利福尼亚大学,洛杉矶分校
  • **在Apple