详细内容或原文请订阅后点击阅览
多频融合实现稳健的视频人脸伪造检测
当前的人脸视频伪造检测器使用宽主干或双流主干。我们证明,两个手工制作的线索的单一、轻量级融合可以通过更小的模型实现更高的准确性。基于 Xception 基线模型(2190 万个参数),我们构建了两个检测器:LFWS,它添加了 1x1 卷积,以将低频小波去噪特征 (WDF) 与仅相位空间相位浅层学习 (SPSL) 图相结合;LFWL,它以相同的方式将 WDF 与局部二值模式 (LBP) 合并。这个额外的模块仅添加 292 个参数,使总数保持在 2190 万个——更小……
来源:Apple机器学习研究当前的人脸视频伪造检测器使用宽主干或双流主干。我们证明,两个手工制作的线索的单一、轻量级融合可以通过更小的模型实现更高的准确性。基于 Xception 基线模型(2190 万个参数),我们构建了两个检测器:LFWS,它添加了 1x1 卷积,以将低频小波去噪特征 (WDF) 与仅相位空间相位浅层学习 (SPSL) 图相结合;LFWL,它以相同的方式将 WDF 与局部二值模式 (LBP) 合并。这个额外的模块仅添加 292 个参数,使总数保持在 2190 万个,小于 F3Net(2250 万),也不到 SRM(5530 万)大小的一半。即使开销如此之小,融合模型仍将 FaceForensics++ 上的平均曲线下面积 (AUC) 从 74.8% 增加到 78.6%,将 DFDC-Preview 从 70.5% 增加到 74.9%,比 Xception 基线分别提高了 3.8% 和 4.4%。它们在八个公共基准测试中也始终优于 F3Net、SRM 和 SPSL,且无需额外数据或测试时间增强。这些结果表明,精心配对、手工制作的功能,通过轻量级融合块组合在一起,可以以显着降低的成本提供最先进的鲁棒性。我们的研究结果表明,需要重新评估人脸视频伪造检测中规模驱动的设计选择。
