基于机器学习的图像生成模型(例如稳定扩散)现在能够生成很难与真实图像区分开的合成图像,这引起了许多法律和道德问题。作为缓解措施的潜在度量,可以训练神经网络检测许多生成模型合成的图像中存在的数字伪像。但是,由于所讨论的伪影通常是特定于模型的伪像,因此这些所谓的探测器通常会出现来自模型的图像时的性能差,因此尚未接受过培训。在本论文中,我们研究了Dreambooth和Lora,最近出现了两种精细方法,以及它们对假图像探测器的性能的影响。Dreambooth和Lora可用于微调一个稳定的扩散基础模型,该模型具有创建基本模型更改版本的效果。可以这样做的便捷性导致了社区产生的合成图像的扩散。然而,模型微调对图像可检测性的影响尚未在科学背景下研究。因此,我们提出以下研究问题:使用Dreambooth或Lora对稳定的扩散基本模型进行微调会影响仅在基本模型图像上训练的探测器的性能指标吗?我们采用了一种实验方法,使用验证的VGG16架构将二进制分类作为检测器。我们在来自Imagenet数据集的真实图像上训练检测器,以及由三个不同稳定扩散基础模型合成的图像,从而产生了三个训练有素的检测器。然后,我们在这些模型的微调版本生成的图像上测试他们的性能。我们发现,在使用微调模型发生的图像上测试检测器的准确性低于对训练的基础模型生成的图像进行测试的准确性。在前者类别中,与洛拉生成的图像相比,Dreambooth生成的图像对检测器的影响更大。我们的研究表明,在伪造图像探测器培训的背景下,有必要在Dreambooth微调模型中考虑到不同的实体。
仅提示在图形,VR,电影和游戏等各个领域都有应用。尽管文本提示允许对生成的3D资产进行某种程度的控制,但通常很难准确地控制其身份,几何形状和外观,仅使用文本来控制其身份,几何形状和外观。尤其是这些方法缺乏生成特定受试者的3D资产的能力(例如,特定的狗而不是普通狗)。能够生成特定于3D的主题3D资产将显着减轻艺术家和3D获取的作品流量。在个性化特定于2D图像生成的受试者T2I模型中取得了显着的成功[13,21,38]。这些技术允许在不同上下文中生成特定主题图像,但它们不会生成3D资产或负担任何3D控制,例如观点变化。在这项工作中,我们提出了“ Dreambooth3d”,这是一种主题驱动的文本到3D代的方法。给定了几个(3-6)的图像捕获主题的图像(没有任何其他信息,例如相机姿势),我们生成了主题 - 特定的3D资产,这些资产也遵守输入文本提示中提供的上下文化。也就是说,我们可以生成具有给定主题的几何和外观身份的3D资产,同时也尊重变化(例如输入文本提示提供的睡眠或跳狗)。对于Dreambooth3d,我们从重点作品[33]中汲取灵感[33],该灵感使用T2I扩散模型得出的损失来优化NERF模型。我们观察到,简单地为给定主题个性化T2I模型,然后使用该模型来优化NERF,易于多种故障模式。一个关键问题是个性化的T2i模型往往会过度符合仅存在于稀疏主题图像中的相机观点。因此,从任意连续的角度来看,这种个性化T2I模型的结果损失不足以优化连贯的3D NERF资产。使用Dreambooth3D,我们提出了一个有效的优化方案,在该方案中,我们可以相互优化NERF资产和T2I模型,以共同使它们具有特定于主题。我们利用DreamFusion [33]进行NERF优化,并使用Dreambooth [38]进行T2I模型。特别是,我们提出了一个三阶段优化框架,在第一个阶段,我们部分地为Dreambooth模型进行了缩减,然后使用DreamFusion来选择NERF资产。部分填充的Dreambooth模型不会过分符合给定的主题视图,但也不会捕获所有特定于主题的细节。因此,结果NERF资产是3D相干的,但不是主体。在第二阶段,我们将Dreambooth模型完全填充,以捕获主题的细节并使用该模型来构建多视伪对象图像。也就是说,我们使用训练有素的Dreambooth模型将多视效果从训练有素的NERF转换为主题图像。在最终阶段,我们进一步优化了Dreambooth模型us-
摘要本文提出了一种创新的方法,用于使用Dreambooth的使用进行微调稳定扩散,这是图像生成任务中非常快的技术。尤其是我们的方法涵盖了房间内部一代的主题。它提供了一个快速的选项,可以指示具有最新概念的算法,而无需重新训练。使用缩短的实例列表和类提示为示例,我们介绍了一条革命性的培训管道,类和实例信息可以在其中相互作用以订购模型的学习过程。通过进行精心制作的试验,我们证明我们的方法论是基于给定主题的现实可视化中的竞争者。我们使用广泛的评估过程来证明该方法在许多数据集上的有效性,这可以确保其概括能力,以使房间的各种布局及其室内设计。一方面,进行精确的消融研究,以评估给定模型中杰出组件的影响。本文显示了Dreambooth的涵盖作品,作为个性化房间室内合成的首选工具。微调生成模型的新可能性也已成为室内设计领域未来学研究的主题。关键字:内部修改,稳定扩散,Dreambooth I.创建迷人的房间环境,非凡的工作点,创新的虚拟现实环境以及迅速产生房间内部的能力,这些房间内饰满足用户的喜好而不会浪费时间至关重要。引言最近在室内设计,建筑,VR等学科的房间空间视觉方面的个性化现象不仅在需求中,而且由于现代世界的迅速发展而受到当今人们的崇拜。通常,房间空间开发一直是一个乏味的过程,它一直由手动劳动主导,因此是人力资源的大量和耗时的。因此,它不仅限制了创造力,而且还可能是挑战的原因,当人们创建对用户友好的系统预测并满足客户扩展时不断变化的需求。除此之外,要探索的大量细节可能性,因此影响了评估和创建不同设计的速度,以有效的方式难以做。与技术繁荣并行开发的是稳定扩散和梦幻架等工具,它们在艺术上呈现房间内饰的方式急需转变以融入
文本到图像生成模型最近引起了极大的兴趣,从而从文本提示中综合了高质量的图像。但是,这些模型通常缺乏从给定的参考图像中产生特定主题或在不同条件下合成新型演绎的能力。诸如Dreambooth和主题驱动的文本对图像(SUTI)之类的方法在这一领域取得了重大进展。然而,两种方法主要侧重于增强与参考图像的相似性,并需要昂贵的设置,通常忽略了有效训练的需求,并避免过度适合参考图像。在这项工作中,我们介绍了λ-谐波奖励功能,该功能提供了可靠的奖励信号,并使得可以尽早停止以进行更快的训练和有效的正则化。通过结合Bradley-Terry偏好模型,λ-谐波奖励功能还为受试者驱动的生成任务提供了偏好标签。我们提出了奖励偏好优化(RPO),该优化提供了更简单的设置(Dreambooth使用的负面样本的3%)和更少的渐变步骤进行微调。与大多数现有方法不同,我们的方法不需要训练文本编码器或优化文本嵌入式,并仅通过微调U-NET组件来实现文本图像对齐。从经验上,λ-谐波被证明是在主题驱动的生成任务中选择模型选择的可靠方法。基于首选项标签和λ-谐波奖励功能的早期停止验证,我们的算法在Dreambench上获得了最先进的剪辑剪辑得分为0.833,剪辑-T得分为0.314。我们的pytorch实现可在https://github.com/andrew-miao/rpo上获得。
摘要MEDVQA-GI挑战挑战解决了AI驱动的文本对象生成模型在医学诊断中的集成,旨在通过合成图像生成来增强诊断能力。现有方法主要集中于静态图像分析,并且缺乏文本描述中医学图像的动态生成。本研究打算通过引入基于微调生成模型的新方法来部分缩小这一差距,以从文本描述中生成动态,可扩展和精确的图像。尤其是,我们的系统集成了微调的稳定扩散和Dreambooth模型,以及低级适应(LORA),以生成高保真的医学图像。问题是两个子任务,即:图像合成(IS)和最佳提示生产(OPG)。前者通过口头提示创建医学图像,而后者提供了在指定类别中产生高质量图像的提示。这项研究强调了传统医学图像生成方法的局限性,例如手绘,限制数据集,静态程序和通用模型。我们的评估措施表明,稳定的扩散在产生高质量,多样化的图像方面超过了夹子和Dreambooth + Lora。具体来说,稳定的扩散的限制距离(FID)得分最低(单中心为0.099,多中心为0.064,合并为0.067),表明图像质量更高。此外,它的平均成立得分最高(所有数据集中为2.327),表明了异常的多样性和质量。这进展了AI驱动的医疗诊断领域。未来的研究将集中于模型炼油,数据集扩展和道德考虑,以有效地将这些进步实施到临床实践中。
但是,将这些技术扩展到文本对视频(T2V)的一代引入了由于视频的时空性质而引起的新挑战。与图像不同,视频除了外观外,还包含运动,因此必须两者考虑两者。当前的自定义方法(Hu等,2021; Mou等,2023; Sohn等,2023; Ye等,2023; Zhang&Agrawala,2023; Gal等,2022; Ruiz等,Ruiz等,2023)主要介绍出现在外观定制,忽略了视频中,这是至关重要的。运动自定义涉及将特定的运动或动画调整到不同对象或字符上,这一任务随着时间的流逝而复杂化和动态变化(Siarrohin等,2019a; b; yatim et al。,2023; Jeong等,2023)。但是,这些方法无法捕获运动的动力学。例如,文本反演(Gal等,2022)从图像中学习嵌入,但缺乏捕获时间相关性的能力,这对于视频动力学至关重要。同样,诸如Dreambooth(Ruiz等,2023)和Lora(Hu等,2021)之类的微调方法努力使运动与外观相关。