摘要。我们提出了W.A.L.T,是从文本提示中生成照相视频的分段变压器。我们的方法有两个关键的设计决策。首先,我们使用因果编码器在一个统一的潜在空间内共同压缩图像和视频,从而使跨模态培训和发电。第二,为了记忆和训练效率,我们使用针对关节空间和Spatiotempo-po-ral生成建模的窗口注意体系结构。综合这些设计决策使我们能够在既定视频(UCF-101和Kinetics-600)和Image(ImageNet)生成基准上实现最先进的性能,而无需使用分类免费的指导。最后,我们还培训了三个模型的级联,以完成由基本的潜在视频差异模型组成的文本到视频生成的任务,以及两个视频超分辨率分离模型,以每秒8帧的速度生成512×896分辨率的视频。