生成模型生成摄影图像的非凡能力加剧了人们对虚假信息传播的担忧,从而导致对能够区分人工智能生成的假图像和真实图像的检测器的需求。然而,缺乏包含来自最先进图像生成器的图像的大型数据集,这对此类检测器的开发构成了障碍。在本文中,我们介绍了 GenImage 数据集,它具有以下优点:1)图像丰富,包括超过一百万对人工智能生成的假图像和收集的真实图像。2)图像内容丰富,涵盖广泛的图像类别。3)最先进的生成器,使用先进的扩散模型和 GAN 合成图像。上述优势使在 GenImage 上训练的检测器经过彻底的评估,并表现出对各种图像的强大适用性。我们对数据集进行了全面分析,并提出了两个任务来评估检测方法在模拟真实场景中的表现。跨生成器图像分类任务衡量了在一个生成器上训练的检测器在其他生成器上测试时的性能。降级图像分类任务评估了检测器处理降级图像(例如低分辨率、模糊和压缩图像)的能力。借助 GenImage 数据集,与现行方法相比,研究人员可以有效地加快开发和评估更优秀的 AI 生成图像检测器。
摘要。扩散模型的最新发展,尤其是在潜在扩散和无分类器指导的情况下,产生了可以欺骗人类的高度实现图像。在检测域中,跨不同生成模型的概括的需求导致许多人依靠频率指纹或痕迹来识别合成图像,因此通常会损害对复杂图像降解的鲁棒性。在本文中,我们提出了一种新的方法,该方法不依赖于频率或直接基于图像的特征。相反,我们利用预先训练的扩散模型和采样技术来检测假图像。我们的方法论基于两个关键见解:(i)预先训练的扩散模型已经包含有关真实数据分布的丰富信息,从而通过策略性抽样实现了真实和假图像之间的区分; (ii)文本条件扩散模型对无分类器指导的依赖性,再加上更高的指导权重,可以实现真实和扩散产生的假imperigens之间的识别性。我们在整个Genimage数据集中评估了我们的方法,并具有八个不同的图像发生器和各种图像降解。我们的方法证明了它在检测多种AI生成的合成图像的功效和鲁棒性,从而设置了新的最新状态。代码可在我们的项目页面1