2024 年 4 月 28 日 — AI 艺术作品使用数十亿张图像和艺术范例生成。当您输入提示时,AI 艺术作品生成器会为您构建一幅图像。
摘要 — 近期所谓的深度伪造的现实创作和传播对社会生活、公民休息和法律构成了严重威胁。名人诽谤、选举操纵和深度伪造作为法庭证据只是深度伪造的一些潜在后果。基于 PyTorch 或 TensorFlow 等现代框架、FaceApp 和 REFACE 等视频处理应用程序以及经济的计算基础设施的开源训练模型的可用性简化了深度伪造的创作。大多数现有检测器专注于检测换脸、口型同步或木偶大师深度伪造,但几乎没有探索用于检测所有三种类型深度伪造的统一框架。本文提出了一个统一的框架,利用混合面部标志和我们新颖的心率特征的融合功能来检测所有类型的深度伪造。我们提出了新颖的心率特征,并将它们与面部标志特征融合,以更好地提取假视频的面部伪影和原始视频中的自然变化。我们利用这些特征训练了一个轻量级的 XGBoost,以对 deepfake 和真实视频进行分类。我们在包含所有类型 deepfake 的世界领袖数据集 (WLDR) 上评估了我们框架的性能。实验结果表明,与比较 deepfake 检测方法相比,所提出的框架具有更优异的检测性能。将我们的框架与深度学习模型候选模型 LSTM-FCN 进行性能比较,结果表明,所提出的模型取得了类似的结果,但它更具可解释性。索引术语 —Deepfakes、多媒体取证、随机森林集成、树提升、XGBoost、Faceswap、Lip sync、Puppet Master。
随着深度伪造技术的快速发展,深度伪造语音的检测变得越来越具有挑战性。在本文中,我们提出了一种用于深度伪造语音检测的混合架构,将用于特征提取的自监督学习框架与分类器头相结合,形成端到端模型。我们的方法结合了音频级和特征级增强技术。具体而言,我们介绍并分析了用于增强原始音频频谱图和在训练期间增强特征表示的各种掩蔽策略。我们在特征提取器的预训练阶段加入了压缩增强,以解决小型单语言数据集的局限性。我们在 ASVSpoof5(ASVSpoof 2024)挑战赛上对该模型进行了评估,在封闭条件下在 Track 1 中取得了最佳结果,等错误率为 4.37%。通过使用不同的预训练特征提取器,该模型实现了 3.39% 的增强 EER。我们的模型表现出了抵御未知深度伪造攻击的强大性能,并在不同的编解码器中表现出了强大的泛化能力。
数字增强证据 法院可能需要考虑改变证据规则,但在此之前,数字增强证据是音频、视频或经过 AI 软件增强的图像。法官可能需要要求专家对经过 AI 软件增强的图像进行证词。数字增强证据的目的通常是为了提高受到质疑的音频、视频和图像的质量,而不是视频或图像。这与过去的用途不同,例如依靠噪音,因为 AI 可能会用噪音填充图像上的像素,例如,通过嵌入他人的肖像来改变原始图像。
现有的视听深击检测方法主要集中于高级效率,以建模音频和视觉数据之间的矛盾。因此,这些副本通常忽略了更精细的视听伪像,这些伪影是深击所固有的。在此,我们提出了引入细粒机制,以检测空间和时间域中的微妙人物。首先,我们引入了一个本地视听模型,该模型能够捕获容易与音频不一致的小空间区域。为此,采用了基于空间本地距离与注意模块的细粒机制。第二,我们引入了一个暂时的伪假增强,以包括在训练集中结合暂时性不一致的样品。在DFDC和FakeAvceleb数据集上进行的实验证明了所提出的方法在泛化方面与在数据库和交叉数据库设置下的最新技术相比,在概括方面具有优越性。
本文介绍了政治深度伪造事件数据库 (PDID),这是一个政治上显著的深度伪造的集合,包括合成视频、图像和不太复杂的“廉价伪造”。该项目的推动因素包括政治中生成式人工智能的兴起、持续的应对危害的政策努力以及将人工智能事件与政治传播研究联系起来的需要。该数据库包含政治深度伪造内容、元数据和研究人员编码的描述符,这些描述符来自政治学、公共政策、传播和错误信息研究。它旨在帮助揭示政治深度伪造的普遍性、趋势和影响,例如那些以主要政治人物或事件为特色的深度伪造。PDID 可以对深度伪造的使用提供见解,协助监管,进行深入分析,支持事实核查和建立信任的努力,并提高对政治深度伪造的认识,从而使政策制定者、研究人员、记者、事实核查人员和公众受益。它适用于媒体效应、政治话语、人工智能伦理、技术治理、媒体素养和对策方面的研究和应用。
摘要:在过去的几年中,扩散模型(DMS)达到了前所未有的视觉质量水平。然而,对DM生成图像的检测几乎没有关注,这对于防止对我们社会的不利影响至关重要。相比之下,从法医角度对生成对抗网络(GAN)进行了广泛的研究。在这项工作中,我们采取自然的下一步来评估是否可以使用以前的方法来检测DMS生成的图像。我们的实验产生了两个关键发现:(1)最新的GAN检测器无法可靠地区分真实图像,但是(2)在DM生成的图像上重新训练它们几乎可以完美地检测,甚至可以显着将其推广到GAN。与特征空间分析一起,我们的结果导致了以下假设:DMS产生的可检测到的伪影较少,因此与gan相比更难检测到。造成这种情况的一个可能原因是在DM生成的图像中没有网格样频率伪像,这是已知的gan弱点。但是,我们做出了有趣的观察结果,即扩散模型倾向于低估高频,这是我们归因于学习目标。