在文本到视频生成[2,13,27,31,42]中。尽管取得了成就,但文本输入的有限可控性刺激了图像到视频(I2V)生成领域的增长趋势,旨在鉴于图像和文本描述[27,38,43],旨在产生视频序列。在I2V生成上的最新研究[35,38,43]试图通过将时间层纳入现有SD模型并在视频和图像数据集中训练这些较大的模型来利用预训练的SD模型的功能。尽管这些方法表现出了令人鼓舞的结果,但在大规模标记的数据集中,很大的缺点仍然很大程度上依赖广泛的培训[9,39]。这可以表现出来,从而限制了这些方法的可访问性和发展潜力。