虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
摘要该扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模可容纳,以扩展其对视觉数据生成的适用性。首先,我们确定了大多数基于MAMBA的视力方法的关键监督,即缺乏对Mamba扫描方案中空间连续性的考虑。Secondly, build- ing upon this insight, we introduce Zigzag Mamba, a simple, plug-and- play, minimal-parameter burden, DiT style solution, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines, also this heteroge- neous layerwise scan enables zero memory and speed burden when we consider more scan paths.最后,我们将Zigzag Mamba与随机插值框架整合在一起,以研究大分辨率视觉数据集上该模型的可扩展性,例如FaceShQ 1024×1024和UCF101,Multimopal-Celeba-HQ,以及MS Coco 256×256。
我们提出了Vidim,这是一个视频间隔的生成模型,该模型在启动和最终框架下创建了简短的视频。为了实现高保真度并在输入数据中产生了看不见的信息,Vidim使用级联的分化模型首先以低分辨率生成目标视频,然后在低分辨率生成的视频上生成高分辨率视频。我们将视频插补的先前最新方法归纳为先前的最新方法,并在大多数设置中演示了这种作品如何在基础运动是复杂,非线性或模棱两可的情况下失败,而Vidim可以轻松处理此类情况。我们还展示了如何在开始和最终框架上进行无分类器指导,并在原始高分辨率框架上调节超级分辨率模型,而没有其他参数可以解锁高保真性结果。vidim可以从共同降低所有要生成的框架,每个扩散模型都需要少于十亿个pa-rameters来产生引人注目的结果,并且仍然可以在较大的参数计数下享有可扩展性和提高质量。请在vidim- Interpolation.github.io上查看我们的项目页面。
文本对图像(T2I)生成模型最近成为一种强大的工具,可以创建照片现实的图像并引起多种应用。然而,将T2i模型的有效整合到基本图像分类任务中仍然是一个悬而未决的问题。促进图像锁骨表现的一种普遍的策略是通过使用T2I模型生成的合成图像来增强训练集。在这项研究中,我们仔细检查了当前发电和常规数据增强技术的缺点。我们的分析表明,这些方法努力产生既忠实的(就前景对象)而且针对领域概念的多样化(在背景上下文中)。为了应对这一挑战,我们引入了一种创新的类数据增强方法,称为diff-mix 1,该方法通过在类之间执行图像翻译来丰富数据集。我们的经验结果是,DIFF-MIX在信仰和多样性之间取得了更好的平衡,从而导致各种图像分类场景之间的性能显着提高,包括域名数据集的少量,常规和长尾分类。
最近,扩散模型 (DM) 已应用于磁共振成像 (MRI) 超分辨率 (SR) 重建,并表现出令人印象深刻的性能,尤其是在细节重建方面。然而,当前基于 DM 的 SR 重建方法仍然面临以下问题:(1)它们需要大量迭代来重建最终图像,效率低下且消耗大量计算资源。(2)这些方法重建的结果通常与真实的高分辨率图像不一致,导致重建的 MRI 图像出现明显失真。为了解决上述问题,我们提出了一种用于多对比 MRI SR 的有效扩散模型,称为 DiffMSR。具体而言,我们在高度紧凑的低维潜在空间中应用 DM 来生成具有高频细节信息的先验知识。高度紧凑的潜在空间确保 DM 只需要几次简单的迭代即可产生准确的先验知识。此外,我们设计了 Prior-Guide Large Window Transformer (PLWformer) 作为 DM 的解码器,它可以扩展感受野,同时充分利用 DM 产生的先验知识,以确保重建的 MR 图像保持不失真。在公共和临床数据集上进行的大量实验表明,我们的 DiffMSR 1 优于最先进的方法。
3D人姿势估计(3D HPE)任务使用2D图像或视频来预测3D空间中的人类关节坐标。尽管最新的基于深度学习的方法取得了进步,但它们主要忽略了可访问的文本和自然可行的人类知识的能力,而错过了有价值的隐性监督,以指导3D HPE任务。此外,以前的努力经常从整个人体的角度研究这项任务,从而忽略了隐藏在不同身体部位的细粒度指导。为此,我们基于3D HPE的扩散模型(名为FinePose)提出了一个新的细粒及时驱动的DeNoiser。它由三个核心块组成,增强了扩散模型的反向过程:(1)通过耦合辅助辅助文本和可学习的提示以模拟隐式指南的耦合知识,并通过耦合的辅助辅助文本和自然可行的零件知识,可以通过耦合的辅助辅助文本和自然可行的零件知识来构建精细的部分零件感知的提示。(2)Fine-
近年来见证了一代和重建范式深入融合的趋势。在本文中,我们扩展了可控制的生成模块的能力,以实现更全面的手网恢复任务:在单个框架中,手工网格的生成,内部网状,重建,重建和拟合,我们将其命名为H olistic H和MESH R Ecovery(HHMR)。我们的主要观察结果是,具有强大多模式可偿还性的单个生成模型可以实现不同类型的手网恢复任务,并且在这样的框架中,实现不同的任务只需要给出不同的信号作为条件。为了实现这一目标,我们提出了基于图形卷积和整体手工网状恢复的注意力卷积和注意力机制的多合一扩散框架。为了实现强大的控制能力,同时确保多模式控制信号的解耦,我们将不同的模态映射到共享特征空间并应用跨尺度随机
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
背景和动机视觉策略学习涉及将视觉观察映射到运动动作上,使机器人能够有效地与环境互动。传统方法通常在多模式作用分布的复杂性以及对高精度和时间一致性的需求中挣扎。最近引入的扩散策略通过采用有条件的降级扩散过程来生成机器人动作,从而提供了有希望的解决方案。这些模型在产生复杂的行为方面表现出了卓越的性能,使其成为机器人操纵和组装任务的理想候选人。此外,整合自然语言处理(NLP)允许多功能任务调理,使机器人能够根据人类指令执行各种任务。
扩散模型由于其众多优点已成为一种流行的图像生成和重建方法。然而,大多数基于扩散的逆问题解决方法仅处理二维图像,即使是最近发表的三维方法也没有充分利用三维分布先验。为了解决这个问题,我们提出了一种新方法,使用两个垂直的预训练二维扩散模型来解决三维逆问题。通过将三维数据分布建模为不同方向切片的二维分布的乘积,我们的方法有效地解决了维数灾难。我们的实验结果表明,我们的方法对于三维医学图像重建任务非常有效,包括 MRI Z 轴超分辨率、压缩感知 MRI 和稀疏视图 CT。我们的方法可以生成适合医疗应用的高质量体素体积。代码可在 https://github.com/hyn2028/tpdm 获得