我们提出了Vidim,这是一个视频间隔的生成模型,该模型在启动和最终框架下创建了简短的视频。为了实现高保真度并在输入数据中产生了看不见的信息,Vidim使用级联的分化模型首先以低分辨率生成目标视频,然后在低分辨率生成的视频上生成高分辨率视频。我们将视频插补的先前最新方法归纳为先前的最新方法,并在大多数设置中演示了这种作品如何在基础运动是复杂,非线性或模棱两可的情况下失败,而Vidim可以轻松处理此类情况。我们还展示了如何在开始和最终框架上进行无分类器指导,并在原始高分辨率框架上调节超级分辨率模型,而没有其他参数可以解锁高保真性结果。vidim可以从共同降低所有要生成的框架,每个扩散模型都需要少于十亿个pa-rameters来产生引人注目的结果,并且仍然可以在较大的参数计数下享有可扩展性和提高质量。请在vidim- Interpolation.github.io上查看我们的项目页面。
主要关键词