多频融合实现稳健的视频人脸伪造检测 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

多频融合实现稳健的视频人脸伪造检测

2026年3月6日 00:00 33 Comments

来源:Apple机器学习研究

当前的人脸视频伪造检测器使用宽主干或双流主干。我们证明，两个手工制作的线索的单一、轻量级融合可以通过更小的模型实现更高的准确性。基于 Xception 基线模型（2190 万个参数），我们构建了两个检测器：LFWS，它添加了 1x1 卷积，以将低频小波去噪特征 (WDF) 与仅相位空间相位浅层学习 (SPSL) 图相结合；LFWL，它以相同的方式将 WDF 与局部二值模式 (LBP) 合并。这个额外的模块仅添加 292 个参数，使总数保持在 2190 万个，小于 F3Net（2250 万），也不到 SRM（5530 万）大小的一半。即使开销如此之小，融合模型仍将 FaceForensics++ 上的平均曲线下面积 (AUC) 从 74.8% 增加到 78.6%，将 DFDC-Preview 从 70.5% 增加到 74.9%，比 Xception 基线分别提高了 3.8% 和 4.4%。它们在八个公共基准测试中也始终优于 F3Net、SRM 和 SPSL，且无需额外数据或测试时间增强。这些结果表明，精心配对、手工制作的功能，通过轻量级融合块组合在一起，可以以显着降低的成本提供最先进的鲁棒性。我们的研究结果表明，需要重新评估人脸视频伪造检测中规模驱动的设计选择。

† 谷歌

‡ 卡内基梅隆大学

** 在 Apple 期间完成的工作

人脸降低的当前的 SPSL 手工相同的先进的完成的提高模型驱动的融合视频 WDF 相位测试模块额外的 2190 鲁棒性设计选择检测器结果表明研究结果准确性轻量级制作 SRM Xception 测试时间主干 F3Net

多频融合实现稳健的视频人脸伪造检测

其他外部链接

Tags

XiaoMi-AI