摘要。扩散模型的最新发展,尤其是在潜在扩散和无分类器指导的情况下,产生了可以欺骗人类的高度实现图像。在检测域中,跨不同生成模型的概括的需求导致许多人依靠频率指纹或痕迹来识别合成图像,因此通常会损害对复杂图像降解的鲁棒性。在本文中,我们提出了一种新的方法,该方法不依赖于频率或直接基于图像的特征。相反,我们利用预先训练的扩散模型和采样技术来检测假图像。我们的方法论基于两个关键见解:(i)预先训练的扩散模型已经包含有关真实数据分布的丰富信息,从而通过策略性抽样实现了真实和假图像之间的区分; (ii)文本条件扩散模型对无分类器指导的依赖性,再加上更高的指导权重,可以实现真实和扩散产生的假imperigens之间的识别性。我们在整个Genimage数据集中评估了我们的方法,并具有八个不同的图像发生器和各种图像降解。我们的方法证明了它在检测多种AI生成的合成图像的功效和鲁棒性,从而设置了新的最新状态。代码可在我们的项目页面1
生成的AI技术提供了越来越多的工具来生成完全合成的图像,这些图像越来越与真实的图像。与改变图像的部分的方法不同,完全合成图像的创建提出了一个独特的挑战,最近似乎似乎已经对其进行了解决。然而,基准数据集的实验结果与野外方法的性能之间通常存在很大的差距。为了更好地满足SID的评估需求并帮助缩小差距,本文介绍了一个基准测试框架,该框架集成了几种最新的SID模型。我们选择集成模型的选择是基于各种输入功能和不同网络体系结构的利用,旨在涵盖广泛的技术。该框架利用了最新的数据集,这些数据集具有多种生成模型,高水平的照片现实主义和分辨率,这反映了图像合成技术的快速改进。此外,该框架还可以研究图像转换如何在在线共享的资产中(例如JPEG压缩)影响检测性能。sidbench可在github.com/mever- team/sidbench上获得,并以模块化的方式设计,以便于包含新的数据集和SID模型。
尽管开发了用于合成图像归因的多种方法,但其中大多数只能归因于训练集中包含的模型或体系结构生成的图像,并且不适用于未知体系结构,从而阻碍了其在现实世界中的适用性。在本文中,我们提出了一个依赖暹罗网络来解决合成图像对生成它们的体系结构的开放设定归因的问题。我们考虑两个不同的设置。在第一个设置中,系统确定是否由相同的生成体系结构产生了两个图像。在第二个设置中,系统验证了用于生成合成图像的体系结构的主张,并利用由声明的体系结构生成的一个或多个参考图像。提出的系统的主要优势在于它在封闭和开放式场景中都可以操作的能力,以便输入图像(查询和参考图像)可以属于训练期间考虑的体系结构。实验评估包括各种生成架构,例如gan,扩散模型和变压器,重点关注合成面部图像产生,并在封闭和开放设定的设置以及其强大的概括能力中确认了我们方法的出色性能。
使用想象中的视觉图像的脑信号重建图像可以为残疾人提供增强视觉,从而推动脑机接口 (BCI) 技术的进步。深度学习的最新进展推动了使用生成对抗网络 (GAN) 从脑信号合成图像的研究领域。在这项工作中,我们提出了一个框架,用于使用小型 EEG 数据集从脑电图 (EEG) 记录的大脑活动合成图像。当受试者要求可视化某类物体和英文字符时,使用 EEG 从受试者的头部头皮记录这种大脑活动。我们在提出的框架中使用对比学习方法从 EEG 信号中提取特征,并使用条件 GAN 从提取的特征合成图像。我们修改了损失函数来训练 GAN,使其能够使用少量图像合成 128 × 128 的图像。此外,我们进行了消融研究和实验,以证明我们提出的框架相对于使用小型 EEG 数据集的其他最先进方法的有效性。
为了研究LVLMS和人类之间的感知差距,我们引入了MVP-Bench,这是第一个视觉语言基准系统地评估LVLMS的低水平和高级视觉感知。我们在自然图像和合成图像上结构MVP基础,以研究操纵的结合如何影响模型感知。使用MVP-Bench,我们诊断了10个开源的视觉感知和2个封闭源LVLM,表明高级感知任务显着挑战了现有的LVLM。“ gpt-4O”状态仅在“是/否”问题上仅能达到56%的准确性,而低水平场景中的准确性为74%。此外,自然图像和操纵图像之间的性能差距表明,当前的LVLM并不像人类那样理解合成图像的视觉语义。我们的数据和代码可在https://github.com/guanzhenli/mvp-bench上公开获取。
摘要。从CO 2柱平均干摩尔分数(XCO 2)的Spaceborn图像中估算城市CO 2发射的兴趣越来越大。排放估计方法已被广泛测试并应用于实际或合成图像。但是,仍然缺乏选择值得处理的图像的客观标准。这项研究分析了一种自动化方法的性能,用于估计城市排放作为目标城市和大气条件的函数。,它使用具有合成真理的合成数据和9920 XCO 2的合成卫星图像在全球最大的31个城市中,由全球自适应网格模型,海洋 - 陆地 - 大气模型(OLAM)产生,在这些城市高度重大的城市中放大。我们使用一种应用于这种合成图像集合的决策树学习方法根据这些发射和大气条件来定义标准,以选择合适的卫星图像。我们表明,基于高斯羽流模型的发射估计方法的自动化方法设法估算了92%的合成图像。我们的学习方法确定了两个标准,即风向的空间可变性和目标城市的排放预算,这些预算折磨了其处理的图像,其处理可得出合理的发射估计,从而从那些处理产生大量的估计。图像对应于风向低空间可变性(小于12°)和高城市排放(大于2.1 kt co 2 H-1)的图像占图像的47%,并且其处理的相对误差在发射范围内产生了相对误差,中位数为-7%,二级分支范围
摘要:数据增强对于像素的注释任务(如语义分割)至关重要,在语义分段中,标签会重大努力和大量劳动。传统方法,涉及简单的转换,例如旋转和翻转,创建新图像,但通常沿关键语义维度缺乏多样性,并且无法改变高级语义属性。为了解决这个问题,生成模型已成为通过生成合成图像来增强数据的有效解决方案。可控的生成模型通过使用提示和来自原始图像的视觉引用为语义分割任务提供数据增强方法。但是,这些模型在生成合成图像时面临挑战,这些图像由于难以创建有效的提示和视觉参考而准确地反映原始图像的内容和结构。在这项工作中,我们引入了使用可控差异模型进行语义分割的有效数据增强管道。我们提出的方法包括使用类别附加和视觉事先融合的类别添加的有效及时生成,以增强对真实图像中标记的类的关注,从而使管道能够生成精确数量的增强图像,同时保留分割标记的类的结构。此外,我们在合成和原始图像合并时实现了平衡算法的类平衡算法。对Pascal VOC数据集的评估,我们的管道证明了其在生成语义分割的高质量合成图像方面的有效性。我们的代码可在此HTTPS URL上找到。
为了人类的运气,与小型太阳能相比,太阳能较小。即使这些是个好消息,这也使训练能够建模太阳能活动的机器学习算法具有挑战性。因此,太阳能监视应用程序(包括量)是预测的,因此由于缺乏输入数据而征服。为了克服这个问题,可以利用生成深度学习模型来产生代表太阳活动的合成图像,从而补偿大事件的稀有性。本研究旨在开发一种可以生成太阳的合成图像,具有特定强度的能力。为了实现我们的目标,我们引入了一个脱氧概率模型(DDPM)。我们用SDO航天器上大气图像组件(AIA)仪器进行了精心制作的数据集训练它,该仪器特别是171Å带,该乐队捕获了冠状环,纤维,纤维,浮雕和活动区域的图像。使用Heliophysics事件知识库选择了来自AIA的浮动图像后,采用X射线测量来基于太阳量(a,b,c,m,x)对每个图像进行分类,从而允许对漏水事件进行时间定位。使用群集指标,FRéchetInception距离(FID)和F1分数评估生成模型性能。我们演示了最新的结果,可以产生太阳图像并进行两个使用合成图像的实验。第一个实验训练有监督的分类器以识别这些事件。第二个实验训练基本太阳能是预测指标。我们认为,这只是DDPM与太阳能数据使用的开始。实验证明了其他合成样本对解决不平衡数据集问题的有效性。仍然可以更好地了解太阳能竞赛中的DINOISING DI遇到的概率模型的发电能力是预测,并将其应用于其他深度学习和物理任务,例如AIA到HMI()图像翻译。
摘要。深度神经网络在医学图像分析方面取得了显著突破。然而,由于其数据量巨大,医学成像项目中的适度数据集大小可能会阻碍其全部潜力的发挥。生成合成数据提供了一种有前途的替代方案,可以补充训练数据集并开展更大规模的医学图像研究。扩散模型最近通过生成逼真的合成图像引起了计算机视觉界的关注。在本研究中,我们探索使用潜在扩散模型从高分辨率 3D 脑图像生成合成图像。我们使用来自英国生物库数据集 (N=31,740) 的 T1w MRI 图像来训练我们的模型,以了解脑图像的概率分布,这些分布以年龄、性别和脑结构体积等协变量为条件。我们发现我们的模型创建了逼真的数据,并且我们可以使用条件变量有效地控制数据生成。除此之外,我们还创建了一个包含 100,000 张大脑图像的合成数据集,并将其公开给科学界。
由于隐私问题和医学成像领域中公开可用的标记数据集的摘要,我们提出了图像生成管道,以合成具有相应地面真实标签的3D超声心动图图像,以减轻数据收集的需求,并需要对艰苦的和错误的人类标记,以实现深入学习(DL)的图像的艰苦和错误的人类标记。所提出的方法利用心脏的详细解剖分段作为地面真实标签来源。此初始数据集与由真实3D超声心动图图像组成的第二个数据集结合使用,以训练生成的对抗网络(GAN),以合成现实的3D心血管超声图像与地面真相标签配对。为了生成合成3D数据集,训练有素的GAN使用计算机断层扫描(CT)的高分辨率解剖模型作为输入。对合成图像的定性分析表明,心脏的主要结构被很好地描述,并紧随从解剖模型中获得的标记。为了评估这些合成图像在DL任务中的可用性,对分割算法进行了培训,可以描绘左心室,左心房和心肌。对由合成图像训练的模型给出的3D分割的定量分析