我们提出了一个能够实现现实视频综合的模型,给定一系列文本提示。由于计算成本,数量有限的高质量文本视频数据和视频长度的变化,因此从文本中生成视频尤其具有挑战性。为了解决这些问题,我们介绍了一种新的模型,以学习视频表示,该模型将视频压缩为一小部分离散令牌。这个令牌仪会及时使用因果关注,这使其可以与可变长度视频一起使用。为了从文本生成视频令牌,我们使用的是在预先计算的文本令牌上进行的双向蒙版变压器。随后对生成的视频令牌进行了解密以创建实际的视频。为了解决数据问题,我们演示了大量图像文本对的联合培训以及少量的视频文本示例如何导致概括超出视频数据集中的可用内容。与以前的视频生成方法相比,Phanaki可以生成以一系列提示为条件的任意长视频(即时间变量文本或故事)在开放域中。据我们所知,这是第一次研究从开放域时间变量提示中生成视频的论文。此外,与每个框架基线相结合,所提出的视频编码器计算每个视频的代币较少,但会导致更好的时空一致性。
主要关键词