为长视频生成制作叙事一致性

最近公开发布的 Hunyuan Video 生成 AI 模型加剧了有关大型多模态视觉语言模型有朝一日制作整部电影的潜力的持续讨论。然而,正如我们所观察到的,由于多种原因,目前这还是一个非常遥远的前景。其中一个原因是注意力窗口非常短 […] 文章《为长视频生成制作叙事一致性》首先出现在 Unite.AI 上。

来源:Unite.AI

浑元视频生成式人工智能模型最近公开发布,这加剧了有关大型多模态视觉语言模型有朝一日制作整部电影的潜力的持续讨论。

最近公开发布

然而,正如我们所观察到的,由于多种原因,目前这是一个非常遥远的前景。 其一是大多数人工智能视频生成器的注意力窗口非常短,即使是在短镜头中也难以保持一致性,更不用说一系列镜头了。

已经观察到

另一个原因是,对视频内容的一致引用(例如可探索的环境,如果您回溯其中的步骤,它们不应该随机变化)只能在扩散模型中通过定制技术(例如低秩自适应(LoRA))实现,这限制了基础模型的开箱即用功能。

低秩自适应

因此,除非开发出新的叙事连续性方法,否则生成视频的发展似乎将停滞不前。

连续性的秘诀

连续性的秘诀

考虑到这一点,美国和中国之间的一项新合作提出使用烹饪教学视频作为未来叙事连续性系统的可能模板。

烹饪教学视频

点击播放。VideoAuteur 项目系统化了烹饪过程各部分的分析,以生成带有精细字幕的新数据集和用于生成烹饪视频的编排方法。请参阅源站点以获得更好的分辨率。来源:https://videoauteur.github.io/

点击播放。VideoAuteur 项目系统化了烹饪过程各部分的分析,以生成带有精细字幕的新数据集和用于生成烹饪视频的编排方法。请参阅源站点以获得更好的分辨率。来源:https://videoauteur.github.io/ 点击播放。 点击播放。 点击播放。 VideoAuteur 点击播放。

该页面还提供了同样不存在的 Netflix 动物系列和特斯拉汽车广告的类似风格的宣传视频。

CookGen Pororo