在过去,将图像栩栩如生被认为是魔术。在传统的中国故事“魔术刷妈的玛利安”中,作者想象着一支魔术笔可以直接绘制活着的照片。巧合的是,哈利·波特(Harry Potter)的故事创造了一个死去的祖先生活在墙壁绘画中的世界。除了小说之外,实现这一目标的探索从未停止。1878年,穆布里奇(Muybridge)提出了一个名为“马运动的马”的著名实验,该实验连续显示了一系列连续的跑步马的图片,可以被视为视频。随着数字设备的开发,当前方法试图使用计算机视觉算法[8,13,16,17,21,21,24,24,27,32,32,32,34,36,40,50]。但是,它面临着几个限制。一方面,这些方法通常集中在有限类别的动画对象上,例如流体[16、24、25],人毛[37]和人体/脸部[6,8,9,13,13,17,27,27,32,34,36,36,50]。由于每种特定类型的领域知识,这些方法通常具有完全可控制的场景能力。,例如,sadtalker [50]可以通过音频和给定的脸产生准确的人脸动画。text2cinemagraph [25]使用文本描述来阐明水的自然动画。对于控制能力,这些方法通常遵循通过自我监督分解学习视频,然后通过新驾驶信号进行动画的规则。但是,由于先验自然动画的限制,由于一般域知识的多样性,这些方法在一般图像空间中失败。与以前的内域图像动画不同,基于当前扩散的图像 - to-video(i2v)方法学会以最终的方式从图像中生成视频。多亏了文本对图像模型的大规模生成之前,即稳定扩散[29],这些方法[1,2,7,11,39]已证明了开放域图像动画的可能性。但是,它们生成的内容可能与给定的图像[1,2,11,39]不同,并且通常通过文本说明[1,2,39]或仅简单的空闲动画[7]产生简单的动作。这些缺点限制了其用于现实世界图像动画任务的应用程序,在该任务中,用户通常需要像以前的内构象中图像动画算法一样创建更可控制的视频。利用域中图像动画和图像到视频的几代,我们很好奇:是否有一个通用的图像动画框架