摘要。本文提出了一种检索训练有素的图像生成洛拉(低级别适应性)模型的方法。此搜索算法采用单个任意图像输入,然后将模型在其中将图像转换为与输入映像相同的样式中的模型。我们使用三胞胎网络(带有三重损失的暹罗网络)采用了对比度学习方法。我们在预采用的洛拉模型上创建了一个示例图像集并执行了样式转移。使用这些传输的图像,对网络进行了微调,以通过其样式而不是通过其主题来计算距离;对于由不同的Lora模型转化的同一主题的一对图像对成对的差异很大,对于由同一LORA模型转换的不同下ject的图像对。通过准确评估任务评估了搜索算法,这些任务估计是否通过对模型进行排名的相同模型和用户实验进行了转换。实验结果表明,精细调整至关重要,样本图像集的多样性也很重要。
摘要 - 基于扩散过程的文本到图像模型,能够将文本描述转换为详细的图像,在艺术,设计以及其他方面具有广泛的应用,例如Dall-E,例如Dall-E,稳定的扩散和Midjourney。但是,它们使用户可以在没有艺术培训的情况下创建与专业质量相当的艺术品,从而导致对侵犯版权的担忧。为了解决这些问题,以前的作品提出了诸如基于对抗扰动和基于水印的方法之类的策略。前者涉及引入微妙的变化以破坏图像生成过程,而后者涉及在艺术品中嵌入可检测的标记。现有方法面临限制,例如需要修改原始图像,容易受到图像预处理的影响,并在将其应用于已发表的艺术品时面临困难。
摘要。本文介绍了 DreamDiffusion,这是一种直接从脑电图 (EEG) 信号生成高质量图像的新方法,无需将想法转化为文本。DreamDiffusion 利用预先训练的文本到图像模型,并采用时间掩蔽信号建模来预训练 EEG 编码器,以获得有效且稳健的 EEG 表示。此外,该方法进一步利用 CLIP 图像编码器提供额外的监督,以更好地将 EEG、文本和图像嵌入与有限的 EEG-图像对对齐。总体而言,所提出的方法克服了使用 EEG 信号进行图像生成的挑战,例如噪声、信息有限和个体差异,并取得了令人鼓舞的结果。定量和定性结果证明了所提方法的有效性,这是朝着便携式和低成本“思想到图像”迈出的重要一步,在神经科学和计算机视觉领域具有潜在的应用。
摘要:深度学习模型已在多个领域得到应用,但在医学成像等敏感领域仍需要进行调整。由于时间限制,医学领域需要使用该技术,因此准确度水平可确保可信度。出于隐私方面的考虑,医学领域的机器学习应用无法使用医疗数据。例如,由于缺乏脑部 MRI 图像,使用基于图像的分类很难对脑肿瘤进行分类。通过应用基于生成对抗网络 (GAN) 的增强技术,解决了这一挑战。深度卷积 GAN (DCGAN) 和 Vanilla GAN 是用于图像生成的 GAN 架构的两个示例。本文提出了一个使用 GAN 架构和深度学习模型生成和分类脑部 MRI 图像的框架,称为 BrainGAN。因此,本研究提出了一种自动检查生成的图像是否令人满意的方法。它使用三个模型:CNN、MobileNetV2 和 ResNet152V2。使用 Vanilla GAN 和 DCGAN 生成的图像训练深度迁移模型,然后在由真实脑部 MRI 图像组成的测试集上评估其性能。从实验结果来看,ResNet152V2 模型的表现优于其他两个模型。ResNet152V2 基于 DCGAN 架构生成的脑部 MRI 图像实现了 99.09% 的准确率、99.12% 的精确率、99.08% 的召回率、99.51% 的曲线下面积 (AUC) 和 0.196 的损失。
摘要。阿尔茨海默病是一种无法治愈的慢性神经系统疾病 (NLD),会影响人类记忆力,并随着大脑区域的萎缩而丧失认知思维能力。早期发现阿尔茨海默病 (AD) 是延缓其影响的唯一希望。本研究设计了一种计算机辅助自动检测方法,可以从磁共振图像扫描中检测出 AD 的轻度认知障碍。数据驱动的解决方案需要大量带注释的图像才能进行诊断。然而,获取大量带注释的数据用于医疗应用是一项艰巨的任务。我们利用深度卷积生成对抗网络 (DCGAN) 来合成高质量图像以增加数据集大小。微调的 CNN(VGG16 架构)模型对图像进行处理,以提取直观的特征以进行早期诊断。VGG16 提取的图像特征输入到支持向量机进行分类。本研究进行了大量实验来验证所提出的方法在公共数据集上的表现优于相对基线。
年龄,精心选择预训练数据,促进具有高保真和效率的DP数据集的有效创建。p iVimage首先使用公共数据集建立语义查询函数。然后,此功能有助于查询敏感数据集的语义分布,从而促进了从公共数据集中选择使用类似语义进行预训练的数据。最后,我们使用选定的数据预先培训图像通用模型,然后使用私有随机梯度下降(DP-SGD)在敏感数据集上微调此模型。p Ivimage使我们能够训练一个易于参数化的生成模型,从而在DP-SGD训练过程中降低了梯度的噪声并增强训练稳定性。广泛的实验表明,与最先进的方法相比,P iVimage仅使用1%的公共数据集进行预训练和7.6%的参数,而实现了卓越的合成性能并保守更多的计算资源。平均而言,P铆接比最先进的方法提高了6.8%的FID和分类精度13.2%。可以在线访问复制软件包和数据集1。
医学成像中的人工智能 (AI) 应用在收集和使用大型数据集方面仍然面临困难。为解决此问题,一种建议的方法是使用生成对抗网络 (GAN) 生成的虚拟图像进行数据增强。然而,由于生成图像的质量和多样性,尚未探索将 GAN 用作数据增强技术。为了通过生成多样化图像来促进此类应用,本研究旨在使用基于 pix2pix 的模型从肿瘤草图生成自由形式的病变图像,该模型是一种源自 GAN 的图像到图像转换模型。由于 pix2pix 假设一对一图像生成,不适合数据增强,我们提出了 StylePix2pix,它经过独立改进,允许一对多图像生成。所提出的模型引入了来自 StyleGAN 的映射网络和样式块。基于医生创建的 20 幅肿瘤草图的图像生成结果表明,所提出的方法可以重现具有复杂形状的肿瘤。此外,StylePix2pix 的一对多图像生成表明其在数据增强应用中的有效性。
AI图像生成模型(例如DALL-E 1)由神经网络组成,这些网络经过大量训练数据训练,包括图像和文本。由于培训过程,模型包含模式的数学表示和语言和图像之间的关联,然后在输入提示时将其部署以生成新图像。对AI图像生成的常见误解是,该模型通过结合从确定性过程中逐件存储的训练数据片段收集的特定特征来构建图像,这不是其工作原理。在高级别上,图像生成过程可以分为两个部分:首先,模型必须“理解”文本提示以指导图像生成过程,其次,该模型必须使用该“理解”来创建清晰的图像。这两个部分涉及两个不同的模型体系结构,它们具有不同的训练过程和不同的推理步骤。该过程的第一部分使用基于变压器的文本编码器,类似于生成文本的模型中使用的文本编码器,例如我们以前的技术解释器2中所述的GPT模型。该过程的第二部分涉及