来自扩散模型的大量合成视频对信息安全性和真实性构成威胁,从而导致对生成的内容检测的需求不断增长。但是,现有的视频级检测算法主要集中于检测面部伪造,并且通常无法识别具有各种语义范围的扩散生成的内容。为了推进视频取证领域,我们提出了一种创新算法,称为多模式检测(MM-DET),用于检测扩散生成的视频。mm-det利用了大型多模式模型(LMM)的深刻感知和全面能力,通过从LMM的多模式空间中产生多模式伪造表示(MMFR),从而增强了其检测到其不看见的伪造内容的能力。此外,MM-DET还利用了一个内在的框架注意(IAFA)机制来在时空结构域中进行特征增强。动态融合策略有助于改善融合的伪造代表。此外,我们在广泛的伪造视频中构建了一个称为扩散视频取证(DVF)的综合扩散视频数据集。mm-det在DVF中实现了最先进的性能,证明了我们的算法的有效性。源代码和DVF均可在链接中获得。
主要关键词