最近的索拉(Sora)发展导致了文本对视频(T2V)一代的新时代。随之而来的是对其安全风险的关注。生成的视频可能包含非法或不道德的内容,并且缺乏对其安全性的全面定量理解,对其可靠性和实际部署构成了挑战。以前的评估主要关注视频生成的质量。虽然对文本到图像模型的一些评估认为安全性,但它们涵盖了有限的方面,并且无法解决视频生成中固有的独特时间风险。为了弥合这一研究差距,我们介绍了T2VSAFETYBENCH,这是对文本To-Video模型进行安全至关重要评估的首个全面基准。我们通过视频生成安全的14个关键方面定义了4个主要类别,并构建了一个恶意提示数据集,包括现实世界提示,LLM生成的提示和基于越狱攻击的提示。然后,我们对最近发布的9个T2V模型进行了彻底的安全评估。基于我们的评估结果,我们提出了几个重要的发现,包括:1)在各个方面没有任何单个模型,不同的模型显示了各种优势; 2)GPT-4评估与手动审查之间的相关性通常很高; 3)文本到视频生成模型的可用性和安全性之间存在权衡。这表明随着视频生成的领域迅速发展,安全风险将迅速增加,突出了优先考虑视频安全性的紧迫性。我们的代码可在https://github.com/yibo-miao/t2vsafetybench上公开获取。我们希望T2VSafetyBench可以提供见解,以更好地理解生成AIS时代的视频发电的安全性。
主要关键词