基于扩散的生成建模的最新进展导致了文本对视频(T2V)模型的开发,这些模型可以在文本提示下生成高质量的视频。这些T2V模型中的大多数通常会产生单场视频剪辑,该视频片段描绘了执行特定动作的实体(例如,“红熊猫爬树”)。但是,由于它们在现实世界中无处不在(例如,“红色熊猫爬树”,然后是“红熊猫睡在树的顶部”)。要从验证的T2V模型中生成多场景视频,我们介绍了IME IGNED C APTIONS(TALC)框架。具体来说,我们增强了T2V体系结构中的文本调节机制,以识别视频场景和场景描述之间的时间对齐。例如,我们调节生成视频的早期和后期场景的视觉特征,其中包括第一个场景描述的表示(例如,“红色熊猫爬树”)和第二个场景描述(例如,“红色熊猫睡在树的顶部”)。因此,我们表明T2V模型可以生成遵守多场曲线文本描述并在视觉上保持一致的多场景视频(例如,实体和背景)。,我们使用TALC框架使用多场景视频文本数据进行预验证的T2V模型。我们表明,滑石粉模型的表现优于基线方法,总分中的基线方法平均使用人类评估来平均视觉一致性和文本依从性。项目网站是https://talc-mst2v.github.io/。
最近的索拉(Sora)发展导致了文本对视频(T2V)一代的新时代。随之而来的是对其安全风险的关注。生成的视频可能包含非法或不道德的内容,并且缺乏对其安全性的全面定量理解,对其可靠性和实际部署构成了挑战。以前的评估主要关注视频生成的质量。虽然对文本到图像模型的一些评估认为安全性,但它们涵盖了有限的方面,并且无法解决视频生成中固有的独特时间风险。为了弥合这一研究差距,我们介绍了T2VSAFETYBENCH,这是对文本To-Video模型进行安全至关重要评估的首个全面基准。我们通过视频生成安全的14个关键方面定义了4个主要类别,并构建了一个恶意提示数据集,包括现实世界提示,LLM生成的提示和基于越狱攻击的提示。然后,我们对最近发布的9个T2V模型进行了彻底的安全评估。基于我们的评估结果,我们提出了几个重要的发现,包括:1)在各个方面没有任何单个模型,不同的模型显示了各种优势; 2)GPT-4评估与手动审查之间的相关性通常很高; 3)文本到视频生成模型的可用性和安全性之间存在权衡。这表明随着视频生成的领域迅速发展,安全风险将迅速增加,突出了优先考虑视频安全性的紧迫性。我们的代码可在https://github.com/yibo-miao/t2vsafetybench上公开获取。我们希望T2VSafetyBench可以提供见解,以更好地理解生成AIS时代的视频发电的安全性。
但是,将这些技术扩展到文本对视频(T2V)的一代引入了由于视频的时空性质而引起的新挑战。与图像不同,视频除了外观外,还包含运动,因此必须两者考虑两者。当前的自定义方法(Hu等,2021; Mou等,2023; Sohn等,2023; Ye等,2023; Zhang&Agrawala,2023; Gal等,2022; Ruiz等,Ruiz等,2023)主要介绍出现在外观定制,忽略了视频中,这是至关重要的。运动自定义涉及将特定的运动或动画调整到不同对象或字符上,这一任务随着时间的流逝而复杂化和动态变化(Siarrohin等,2019a; b; yatim et al。,2023; Jeong等,2023)。但是,这些方法无法捕获运动的动力学。例如,文本反演(Gal等,2022)从图像中学习嵌入,但缺乏捕获时间相关性的能力,这对于视频动力学至关重要。同样,诸如Dreambooth(Ruiz等,2023)和Lora(Hu等,2021)之类的微调方法努力使运动与外观相关。
