具有扩散模型的影像性视频生成__

具有扩散模型的影像性视频生成

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

具有扩散模型的影像性视频生成

¥ 1.0

热度

摘要。我们提出了W.A.L.T，是从文本提示中生成照相视频的分段变压器。我们的方法有两个关键的设计决策。首先，我们使用因果编码器在一个统一的潜在空间内共同压缩图像和视频，从而使跨模态培训和发电。第二，为了记忆和训练效率，我们使用针对关节空间和Spatiotempo-po-ral生成建模的窗口注意体系结构。综合这些设计决策使我们能够在既定视频（UCF-101和Kinetics-600）和Image（ImageNet）生成基准上实现最先进的性能，而无需使用分类免费的指导。最后，我们还培训了三个模型的级联，以完成由基本的潜在视频差异模型组成的文本到视频生成的任务，以及两个视频超分辨率分离模型，以每秒8帧的速度生成512×896分辨率的视频。

添加pdf代下载 VIP点击下载文件