摘要。扩散模型的最新发展,尤其是在潜在扩散和无分类器指导的情况下,产生了可以欺骗人类的高度实现图像。在检测域中,跨不同生成模型的概括的需求导致许多人依靠频率指纹或痕迹来识别合成图像,因此通常会损害对复杂图像降解的鲁棒性。在本文中,我们提出了一种新的方法,该方法不依赖于频率或直接基于图像的特征。相反,我们利用预先训练的扩散模型和采样技术来检测假图像。我们的方法论基于两个关键见解:(i)预先训练的扩散模型已经包含有关真实数据分布的丰富信息,从而通过策略性抽样实现了真实和假图像之间的区分; (ii)文本条件扩散模型对无分类器指导的依赖性,再加上更高的指导权重,可以实现真实和扩散产生的假imperigens之间的识别性。我们在整个Genimage数据集中评估了我们的方法,并具有八个不同的图像发生器和各种图像降解。我们的方法证明了它在检测多种AI生成的合成图像的功效和鲁棒性,从而设置了新的最新状态。代码可在我们的项目页面1
此处使用的目标函数是根据(相当流行的)PPO算法建模的。该算法反过来是一种策略梯度方法,并且是由信任区域策略优化(TRPO)的目标函数所激发的。,但是目标函数背后的(超高级别)直觉如下:1。对奖励的期望表明,在RL训练的模型πRL的样品上,我们希望该样品πrl的概率高时,当奖励rθ高,否则否则为低。2。beta术语的期望表明我们不希望RL训练的模型概率πrl到
文本到图像扩散模型在过去两年中取得了巨大的进步,从而可以基于开放域文本描述产生高度逼真的图像。,尽管它们成功,但文本描述通常也很难充分传达详细的控制,即使是由长长而复杂的文本组成的。此外,最近的研究还表明,这些模型在理解此类复杂文本和生成相应图像方面面临挑战。因此,越来越需要在文本描述之外启用更多的控制模式。在本文中,我们引入了Uni-Controlnet,这是一个统一的框架,允许同时利用不同的本地控件(例如,边缘地图,深度图,分割掩码)和全局控件(例如,剪辑掩码)(例如,剪贴图像嵌入),以一种单个模型的柔性和可构成方式。与现有方法不同,Uni-Controlnet仅需要在冷冻预训练的文本到图像扩散模型时对两个附加适配器进行微调,从而消除了从头开始的巨大培训成本。此外,由于一些专用的适配器设计,uni-controlnet只需要一个恒定数字(即2),而不管使用的本地或全局控件的数量如何。这不仅降低了微调成本和模型大小,因此更适合于现实世界的部署,而且还促进了不同条件的合成性。通过定量和定性比较,在可控性,发电质量和合成性方面,Uni-Controlnet展示了其优于现有方法的优势。代码可在https://github.com/shihaozhaozsh/uni-controlnet上找到。
摘要。超声视频分类可以实现自动诊断,并成为重要的研究领域。但是,公开可用的超声视频数据集仍然稀缺,阻碍了开发有效的视频分类模型的进展。我们通过从可读取的丰富超声图像中合成合理的超声视频来解决这种短缺。为此,我们引入了一个潜在的动态扩散模型(LDDM),以有效地将静态图像转换为具有现实视频特征的动态序列。我们在BUSV基准上展示了强大的定量结果和视觉吸引力的合成视频。值得注意的是,关于真实和LDDM合成视频的组合的培训视频分类模型大大改善了单独使用真实数据的性能,这表明我们的方法成功地模拟了对歧视至关重要的动态。我们的图像到视频方法提供了有效的数据增强解决方案,以推进超声视频分析。代码可在https://github.com/medaitech/u_i2v上找到。
扩散模型在图像生成方面表现出色,但它们的计算量大且训练耗时。在本文中,我们介绍了一种新型扩散模型,该模型受益于量子计算技术,可以减轻计算挑战并提高高能物理数据的生成性能。全量子扩散模型在前向过程中用随机酉矩阵取代高斯噪声,并在去噪架构的 U-Net 中引入变分量子电路。我们对来自大型强子对撞机的结构复杂的夸克和胶子喷流数据集进行了评估。结果表明,全量子和混合模型在喷流生成方面可与类似的经典模型相媲美,凸显了使用量子技术解决机器学习问题的潜力。
摘要。我们提出了4DIFF,这是一个解决Exo-to-ego视图转换任务的3D引起的扩散模型 - 从相应的第三人称(Exentric)图像中生成第一人称(Ego-go-Imentric)查看图像。建立扩散模型生成光地式图像的能力,我们提出了一个基于变压器的扩散模型,该模型通过两种机制对几何学进行了评分:(i)Egocentric Point Cloud Rasterization和(II)3D意识到的旋转旋转交叉注意。以中心的点云栅格化将输入外向图像转换为以自我为中心的布局,后者随后被扩散图像变压器使用。作为扩散变压器的DeNoiser块的组成部分,3D感知的旋转跨注意事件进一步结合了从源exentric视图中的3D信息和半出现特征。我们的4DIFF在挑战性和多样化的自我exo4d多视图数据集上实现了状态的结果,并展示了对训练期间未遇到的新型环境的强大概括。我们的代码,处理过的数据和预处理的模型可在https://klauscc.github.io/4diff上公开获取。
检测异常的能力,即在培训或分发期间看不到的任何内容(OOD)在医学成像应用中对于成功部署机器学习系统至关重要。使用无监督的学习过滤OOD数据特别有希望,因为它不需要昂贵的注释。基于deo的扩散概率模型(DDPM)的新型模型,称为阳极,阳极,最近在无监督的OOD检测中取得了重大进展。这项工作为数字病理中无监督的OOD检测方法提供了基准。通过利用快速采样技术,我们将阳极在足够大的尺度上应用阳极,以在Camelyon16挑战的完整测试集上进行全面的图像分析。基于ROC分析,我们表明,在两个补丁级的OOD检测任务上,ANODDPMS可以检测到OOD数据,最高为94.13和86.93,表现优于其他无人研究的方法。我们观察到阳极改变了输入的语义特性,用更良性的组织代替了异常数据。此外,我们通过评估具有不同信噪比的输入的重建误差来强调阳极对不同信息瓶颈的灵活性。尽管有完全监督的学习仍然存在显着的性能差距,但在数字病理学中的OOD检测领域表现出了巨大的希望。
扩散模型已成为一种有前途的数据驱动规划方法,并已展示出令人印象深刻的机器人控制、强化学习和视频规划性能。给定一个有效的规划器,需要考虑的一个重要问题是重新规划——何时应由于动作执行错误和外部环境变化而重新生成给定的计划。直接执行计划而不进行重新规划是有问题的,因为来自单个动作的错误会迅速累积,并且环境是部分可观察和随机的。同时,在每个时间步重新规划会产生大量的计算成本,并且可能会阻止任务成功执行,因为不同的生成计划会阻止任何特定目标的一致进展。在本文中,我们探讨了如何使用扩散模型有效地进行重新规划。我们提出了一种原则性方法来确定何时重新规划,该方法基于扩散模型对现有生成计划的估计可能性。我们进一步提出了一种重新规划现有轨迹的方法,以确保新计划遵循与原始轨迹相同的目标状态,这可以有效地引导先前生成的计划。我们说明了我们提出的附加功能组合如何显著提高扩散规划器的性能,使其在 Maze2D 上的性能比过去的扩散规划方法提高了 38%,并进一步实现了随机和长视界机器人控制任务的处理。视频可在匿名网站上找到:https://vis-www.cs.umass. edu/replandiffuser/ 。
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
最近,在利用人类反馈来增强图像产生方面取得了重大进展,导致迅速发展的研究领域的出现。但是,当前的工作面临着几个关键挑战:i)数据数量不足; ii)粗略的反馈学习;为了应对这些挑战,我们提出了Treereward,这是一种新型的多维,细粒度和自适应馈回学习框架,旨在改善扩散模型的语义和审美方面。具体来说,为了解决细粒反馈数据的限制,我们首先以“ AI + Exper”方式设计有效的反馈数据构建管道,产生约220万个高质量的反馈数据集,其中包含六个细粒度的尺寸。构建的,我们将构建一个树结构奖励模型,以有效利用细粒度的反馈数据,并在反馈学习过程中提供量身定制的优化。对稳定扩散V1.5(SD1.5)和稳定扩散XL(SDXL)的广泛实验证明了我们方法在增强一般且细粒度