使用想象中的视觉图像的脑信号重建图像可以为残疾人提供增强视觉,从而推动脑机接口 (BCI) 技术的进步。深度学习的最新进展推动了使用生成对抗网络 (GAN) 从脑信号合成图像的研究领域。在这项工作中,我们提出了一个框架,用于使用小型 EEG 数据集从脑电图 (EEG) 记录的大脑活动合成图像。当受试者要求可视化某类物体和英文字符时,使用 EEG 从受试者的头部头皮记录这种大脑活动。我们在提出的框架中使用对比学习方法从 EEG 信号中提取特征,并使用条件 GAN 从提取的特征合成图像。我们修改了损失函数来训练 GAN,使其能够使用少量图像合成 128 × 128 的图像。此外,我们进行了消融研究和实验,以证明我们提出的框架相对于使用小型 EEG 数据集的其他最先进方法的有效性。
抽象的纹理分析用于非常广泛的场和应用,从纹理分类(例如,用于遥感)到分割(例如,在生物医学成像中),通过图像合成或模式识别(例如,用于图像inpainting)。对于这些图像处理过程中的每一个,首先,必须从原始图像中提取描述纹理属性的象征性特征。在过去的几十年中,已经提出了各种特征提取方法。每个人都有其优点和局限性:其中一些的性能不是通过翻译,旋转,affin和perspective变换来修改的;其他人的计算复杂性低;其他人再次容易实施;等等。本文对纹理特征提取方法进行了全面的调查。后者分为七个类:统计方法,结构方法,基于转换的方法,基于模型的方法,基于图形的方法,基于学习的方法和基于熵的方法。对于这七个类中的每种方法,我们介绍了概念,优势和缺点,并给出了应用程序的示例。这项调查使我们能够确定两类方法,特别是在将来值得关注的方法,因为它们的表现似乎很有趣,但是他们的详尽研究尚未进行。
摘要。由于 CT 或 MR 扫描的三维特性,医学图像的生成建模是一项特别具有挑战性的任务。现有方法大多采用逐块、逐片或级联生成技术,将高维数据放入有限的 GPU 内存中。然而,这些方法可能会引入伪影,并可能限制模型对某些下游任务的适用性。本文介绍了 WDM,这是一种基于小波的医学图像合成框架,它将扩散模型应用于小波分解图像。所提出的方法是一种将 3D 扩散模型扩展到高分辨率的简单而有效的方法,可以在单个 40 GB GPU 上进行训练。在 128 × 128 × 128 分辨率下对 BraTS 和 LIDC-IDRI 无条件图像生成的实验结果与最近的 GAN、扩散模型和潜在扩散模型相比,展示了最先进的图像保真度 (FID) 和样本多样性 (MS-SSIM) 得分。我们提出的方法是唯一能够以 256 × 256 × 256 的分辨率生成高质量图像的方法,优于所有比较方法。项目页面位于 https://pfriedri.github.io/wdm-3d-io 。
摘要。在计算机视觉中,众所周知,缺乏数据会损害模型性能。在这项研究中,我们应对加强数据集多样性问题的挑战,以使各种下游任务(例如对象检测和实例segmentation)受益。我们通过利用生成模型中的进步,特别是文本对图像合成技术(如稳定扩散)提出了一种简单而有效的数据增强方法。我们的方法着重于标记的真实图像的变化,利用生成对象和背景增强通过indpainting来增强现有的培训数据,而无需其他注释。我们发现,尤其是背景增强,显着提高了模型的鲁棒性和泛化能力。我们还调查了如何提示和掩盖以确保生成的内容符合现有注释。通过对可可数据集的全面评估和其他几个关键对象检测基准测试,我们的增强技术的功效得到了验证,这表明在不同情况下,模型性能没有提高。这种方法为数据集启用的挑战提供了有希望的解决方案,这有助于开发更准确,更健壮的计算机视觉模型。
生成对抗网络 (GAN) 在计算机视觉、自然语言处理、语音合成和类似领域越来越受到关注。可以说,最引人注目的成果是在图像合成领域。然而,评估 GAN 的性能仍然是一个开放且具有挑战性的问题。现有的评估指标主要使用自动统计方法来测量真实图像和生成图像之间的差异。它们通常需要大量样本进行评估,并且不直接反映人类对图像质量的感知。在这项工作中,我们描述了一种称为 Neuroscore 的评估指标,用于评估 GAN 的性能,它通过利用脑信号更直接地反映心理感知图像质量。我们的结果表明,Neuroscore 的性能优于当前的评估指标,因为:(1)它更符合人类判断;(2)评估过程需要的样本数量少得多;(3)它能够根据每个 GAN 对图像的质量进行排名。提出了一种基于卷积神经网络 (CNN) 的神经人工智能接口,可以直接从 GAN 生成的图像中预测神经评分,而无需神经响应。重要的是,我们表明,在网络训练阶段加入神经响应可以显著提高预测能力
[FEL49] William Feller。“关于随机过程的理论,对应用的尤为参考”。:1949年。URL:https:// api。Spenticscholar.org/corpusid:121027442。[SE19] Yang Song和Stefano Ermon。“通过估计数据分布梯度来生成建模”。in:神经信息处理系统的进步32(2019)。[HJA20] Jonathan Ho,Ajay Jain和Pieter Abbeel。“降级扩散概率模型”。in:神经信息处理系统的进步33(2020),pp。6840–6851。[儿子+20] Yang Song等。“通过stochastic微分方程基于得分的生成建模”。in:arxiv预印arxiv:2011.13456(2020)。[DN21] Prafulla Dhariwal和Alexander Nichol。“扩散模型在图像合成上击败了gans”。in:神经信息过程的进步34(2021),pp。8780–8794。[Kin+21] Diederik Kingma等。“变化扩散模型”。in:神经信息处理系统的进步34(2021),pp。21696–21707。[HS22] Jonathan Ho和Tim Salimans。“无分类器扩散指南”。in:arxiv预印术:2207.12598(2022)。[CHI+23] Cheng Chi等。“扩散策略:通过行动扩散进行视觉策略学习”。in:arxiv预印术:2303.04137(2023)。
摘要。文本对图像合成是机器学习中最具挑战性和最受欢迎的任务之一,许多模型旨在提高该领域的性能。深融合生成的对抗网络(DF-GAN)是图像生成的直接但有效的模型,但它具有三个关键局限性。首先,它仅支持句子级文本描述,从而限制了其从文字级输入中提取细颗粒特征的能力。第二,可以优化残差层和块的结构以及关键参数,以提高性能。第三,现有的评估指标,例如FréchetInception距离(FID),倾向于不适当地强调无关紧要的功能,例如背景,当重点放在生成特定对象上时,这是有问题的。为了解决这些问题,我们引入了一个新的文本编码器,该编码器增强了具有处理单词级描述能力的模型,从而导致更精确和文本一致的图像生成。此外,我们优化了关键参数,并重新设计了卷积和残留网络结构,从而产生了更高质量的图像并减少了运行时间。最后,我们提出了一种量身定制的新评估理论,以评估生成图像中特定对象的质量。这些改进使增强的DF-GAN在有效地产生高质量的文本分配图像方面更有效。
在物联网人工智能快速发展的背景下,物联网的建立可以促进人工智能领域的快速进步。传统图像检测方法采用小波能量算法划分背景和边缘噪声,分辨率较差,图像检测精度低,存在检测速度慢、缺乏图像深度分析等一系列问题。针对传统方法的弊端,本研究提出基于物联网的人工智能图像检测系统的设计,采用智能人工像素特征采集技术对图像进行逐点特征提取。将人工智能学习算法引入到物联网系统下的车间车轮检测中,不仅可以解决传统方法中特征抗干扰性差、鲁棒性差的问题,而且对车轮检测系统的二次开发具有重要意义。利用神经网络对车轮图像进行分类,同时融合车轮缺陷检测、车轮编号识别等其他检测需求,利用物联网丰富的数据资源和处理能力对采集的图像像素进行特征分析和反馈。人工智能图像合成模块对信号进行图像转换处理,处理反馈信号,分析结果完成图像检测,完成人工智能图像。通过仿真实验,证明了基于物联网的人工智能图像检测系统设计具有图像检测率高、识别准确率高、运行稳定、处理高效等优点,该设计思路具有很好的应用价值。
解码人脑一直是神经科学家和人工智能研究人员的标志。重新构建来自脑电脑脑电图(EEG)信号的视觉图像,由于其在脑部计算机接口中的应用,引起了人们的极大兴趣。本研究提出了一种两阶段的方法,其中第一步是获得脑电图衍生的特征,以稳健地学习深度代表,然后将学习的表示形式用于图像产生和分类。我们使用具有监督和对比度学习方法的深度学习体系结构在三个不同的数据集中进行了特征提取管道的普遍性。我们已经执行了零摄影的脑电图分类任务,以进一步支持概括性索赔。我们观察到,与脑电图和图像之间的联合代表学习相比,在单峰设置中仅使用脑电图数据来学习一个单独使用脑电图数据的近距离线性分离的视觉表示。最后,我们提出了一个新颖的框架,将看不见的图像转换为脑电图空间,并以近似值重建它们,从而展示了来自EEG信号的图像重建潜力。我们提出的来自EEG的图像合成方法显示了62。9%和36。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。EEGCVPR40和ThoughtViz数据集的成立得分提高了13%,这比GAN 1中的最先进的表现效果。
合成孔径雷达(SAR)图像合成和模拟在传感器设计和辅助处理算法评估中具有不同的应用。传统上,这个领域依靠基于物理的模拟,使用车辆和场景的电磁建模。但是,深度神经网络技术的出现导致努力将这些方法应用于SAR图像的产生。早期网络体系结构主要利用会议网络和生成对抗网络(GAN)框架。这些网络(包括一代和歧视者)的规模受到限制,通常与小图像大小一起工作。它们通常是在成对的图像上操作的,例如光学和SAR图像或同一区域的不同频率SAR图像,旨在将一种图像类型转换为另一种图像类型,类似于样式的Transfer。这种方法需要从头开始培训,提出与模型深度和数据集大小相关的挑战。最近的研究引入了基础模型,由Meta的细分市场(SAM),Llama和Runway的稳定扩散所阐明。这些基于变压器的模型在大型开放数据集,数十亿个参数和出色的概括功能上进行了大量培训,尽管接受了互联网采购的数据培训。与以前的模型相比,基础模型提供了最小化的优势,利用其固有的功能。但是,它们需要强大的GPU,并在较小的数据集上进行仔细调整以防止过度插入。接下来,我们将讨论与我们的域相关的各种调整方法。我们详细介绍了我们的图像在本文中,我们介绍了使用Real Onera Sethi X Band Sar Images进行拟合的结果。我们从第2节开始,简要概述了该模型的体系结构,组件和Intial培训数据。