Loading...
机构名称:
¥ 1.0

随着深度伪造技术的快速发展,深度伪造语音的检测变得越来越具有挑战性。在本文中,我们提出了一种用于深度伪造语音检测的混合架构,将用于特征提取的自监督学习框架与分类器头相结合,形成端到端模型。我们的方法结合了音频级和特征级增强技术。具体而言,我们介绍并分析了用于增强原始音频频谱图和在训练期间增强特征表示的各种掩蔽策略。我们在特征提取器的预训练阶段加入了压缩增强,以解决小型单语言数据集的局限性。我们在 ASVSpoof5(ASVSpoof 2024)挑战赛上对该模型进行了评估,在封闭条件下在 Track 1 中取得了最佳结果,等错误率为 4.37%。通过使用不同的预训练特征提取器,该模型实现了 3.39% 的增强 EER。我们的模型表现出了抵御未知深度伪造攻击的强大性能,并在不同的编解码器中表现出了强大的泛化能力。

揭穿 Deepfakes:利用增强和特征可变性进行 Deepfakes 语音检测

揭穿 Deepfakes:利用增强和特征可变性进行 Deepfakes 语音检测PDF文件第1页

揭穿 Deepfakes:利用增强和特征可变性进行 Deepfakes 语音检测PDF文件第2页

揭穿 Deepfakes:利用增强和特征可变性进行 Deepfakes 语音检测PDF文件第3页

揭穿 Deepfakes:利用增强和特征可变性进行 Deepfakes 语音检测PDF文件第4页

揭穿 Deepfakes:利用增强和特征可变性进行 Deepfakes 语音检测PDF文件第5页

相关文件推荐