现有的视听深击检测方法主要集中于高级效率,以建模音频和视觉数据之间的矛盾。因此,这些副本通常忽略了更精细的视听伪像,这些伪影是深击所固有的。在此,我们提出了引入细粒机制,以检测空间和时间域中的微妙人物。首先,我们引入了一个本地视听模型,该模型能够捕获容易与音频不一致的小空间区域。为此,采用了基于空间本地距离与注意模块的细粒机制。第二,我们引入了一个暂时的伪假增强,以包括在训练集中结合暂时性不一致的样品。在DFDC和FakeAvceleb数据集上进行的实验证明了所提出的方法在泛化方面与在数据库和交叉数据库设置下的最新技术相比,在概括方面具有优越性。
人们对出于各种目的的人们的综合视频图像产生了浓厚的兴趣,包括娱乐,交流,培训和广告。随着深层假期模型的开发,合成视频图像很快将在视觉上与自然捕获视频的肉眼无法区分。此外,许多方法正在继续改进,以避免更仔细的法医视觉分析。通过使用面部木偶来制作一些深层的虚假视频,该视频通过演员的动作直接控制合成图像的头部和面部,使演员可以“木偶”的图像“木偶”。在本文中,我们解决了一个问题,即是否可以通过控制扬声器的视觉外观,但要从另一个来源传输行为信号来区分原始说话者的动作。我们通过比较合成图像来进行研究:1)源自另一个人讲不同话语的人,2)起源于同一人说的话不同,而3)源自另一个人说相同话语的人。我们的研究表明,在所有三种情况下,合成视频都比原始源视频不那么真实和吸引力。我们的结果表明,可以从一个人的动作中检测到与视觉外观分开的行为签名,并且可以使用这种行为签名来区分深处的伪造和正确捕获的视频。
摘要:DeepFake已成为一项新兴技术,近年来影响网络安全的非法应用。大多数DeepFake检测器都利用基于CNN的模型(例如Xception Network)来区分真实或假媒体;但是,它们在交叉数据集中的表现并不理想,因为它们在当前阶段遭受过度的苦难。因此,本文提出了一种空间一致性学习方法,以三个方面缓解此问题。首先,我们将数据增强方法的选择提高到5,这比我们以前的研究的数据增强方法还多。具体来说,我们捕获了一个视频的几个相等的视频帧,并随机选择了五个不同的数据增强,以获取不同的数据视图以丰富输入品种。其次,我们选择了Swin Transformer作为特征提取器,而不是基于CNN的主链,这意味着我们的方法并未将其用于下游任务,并且可以使用端到端的SWIN变压器对这些数据进行编码,旨在了解不同图像补丁之间的相关性。最后,这与我们的研究中的一致性学习结合在一起,一致性学习能够比监督分类确定更多的数据关系。我们通过计算其余弦距离并应用传统的跨膜损失来调节这种分类损失,从而探索了视频框架特征的一致性。广泛的数据库和跨数据库实验表明,弹药效果可能会在某些开源的深层数据集中产生相对良好的结果,包括FaceForensics ++,DFDC,Celeb-DF和FaceShifter。通过将我们的模型与多种基准模型进行比较,我们的方法在检测深冰媒体时表现出相对强大的鲁棒性。
摘要:在过去的几年中,扩散模型(DMS)达到了前所未有的视觉质量水平。然而,对DM生成图像的检测几乎没有关注,这对于防止对我们社会的不利影响至关重要。相比之下,从法医角度对生成对抗网络(GAN)进行了广泛的研究。在这项工作中,我们采取自然的下一步来评估是否可以使用以前的方法来检测DMS生成的图像。我们的实验产生了两个关键发现:(1)最新的GAN检测器无法可靠地区分真实图像,但是(2)在DM生成的图像上重新训练它们几乎可以完美地检测,甚至可以显着将其推广到GAN。与特征空间分析一起,我们的结果导致了以下假设:DMS产生的可检测到的伪影较少,因此与gan相比更难检测到。造成这种情况的一个可能原因是在DM生成的图像中没有网格样频率伪像,这是已知的gan弱点。但是,我们做出了有趣的观察结果,即扩散模型倾向于低估高频,这是我们归因于学习目标。
