[12] A. Siarohin、S. Lathuiliere、E. Sangineto 和 N. Sebe,“使用可变形 GAN 生成外观和姿势条件人体图像”,IEEE 模式分析机器智能汇刊,第 43 卷,第 4 期,第 1156-1171 页,2021 年 4 月。[13] L. Zhou、J. Chen、Y. Zhang、C. Su 和 MA James,“智能对称密钥加密的安全性分析和新模型”,计算机安全,第 80 卷,第 14-24 页,2019 年 1 月。[14] M. Coutinho、R. de Oliveira Albuquerque、F. Borges、LG Villalba 和 T.-H. Kim,“学习
但是,将这些技术扩展到文本对视频(T2V)的一代引入了由于视频的时空性质而引起的新挑战。与图像不同,视频除了外观外,还包含运动,因此必须两者考虑两者。当前的自定义方法(Hu等,2021; Mou等,2023; Sohn等,2023; Ye等,2023; Zhang&Agrawala,2023; Gal等,2022; Ruiz等,Ruiz等,2023)主要介绍出现在外观定制,忽略了视频中,这是至关重要的。运动自定义涉及将特定的运动或动画调整到不同对象或字符上,这一任务随着时间的流逝而复杂化和动态变化(Siarrohin等,2019a; b; yatim et al。,2023; Jeong等,2023)。但是,这些方法无法捕获运动的动力学。例如,文本反演(Gal等,2022)从图像中学习嵌入,但缺乏捕获时间相关性的能力,这对于视频动力学至关重要。同样,诸如Dreambooth(Ruiz等,2023)和Lora(Hu等,2021)之类的微调方法努力使运动与外观相关。
Jordan Cosio 2023-(Inria Grenible)想象。 博士Pierre-Brice Witer Jean-Eudes Ayilo 2023-(中央汤)不在。Jordan Cosio 2023-(Inria Grenible)想象。博士Pierre-Brice Witer Jean-Eudes Ayilo 2023-(中央汤)不在。