近年来见证了一代和重建范式深入融合的趋势。在本文中,我们扩展了可控制的生成模块的能力,以实现更全面的手网恢复任务:在单个框架中,手工网格的生成,内部网状,重建,重建和拟合,我们将其命名为H olistic H和MESH R Ecovery(HHMR)。我们的主要观察结果是,具有强大多模式可偿还性的单个生成模型可以实现不同类型的手网恢复任务,并且在这样的框架中,实现不同的任务只需要给出不同的信号作为条件。为了实现这一目标,我们提出了基于图形卷积和整体手工网状恢复的注意力卷积和注意力机制的多合一扩散框架。为了实现强大的控制能力,同时确保多模式控制信号的解耦,我们将不同的模态映射到共享特征空间并应用跨尺度随机
单眼深度估计在近年来,由于深度学习的进步,近年来在陆地图像上取得了重大进展。,但主要是由于数据稀缺性而导致的水下场景不足。鉴于水中的光衰减和背面的固有挑战,获得清晰的水下图像或精确的深度非常困难且昂贵。为了减轻此问题,基于学习的方法通常依赖于综合数据或转向自欺欺人或无监督的举止。尽管如此,它们的性能通常受到域间隙和宽松的约束而阻碍。在本文中,我们提出了一种新的管道,用于使用准确陆地深度生成感性的水下图像。这种方法有助于对水下深度估计的模型进行超级培训,从而有效地降低了限制和水下环境之间的性能差异。与以前的合成数据集相反,这些数据集仅将样式转移应用于没有场景内容的情况下的Terres试验图像,我们的方法通过通过创新的STA-
最近,扩散模型 (DM) 已应用于磁共振成像 (MRI) 超分辨率 (SR) 重建,并表现出令人印象深刻的性能,尤其是在细节重建方面。然而,当前基于 DM 的 SR 重建方法仍然面临以下问题:(1)它们需要大量迭代来重建最终图像,效率低下且消耗大量计算资源。(2)这些方法重建的结果通常与真实的高分辨率图像不一致,导致重建的 MRI 图像出现明显失真。为了解决上述问题,我们提出了一种用于多对比 MRI SR 的有效扩散模型,称为 DiffMSR。具体而言,我们在高度紧凑的低维潜在空间中应用 DM 来生成具有高频细节信息的先验知识。高度紧凑的潜在空间确保 DM 只需要几次简单的迭代即可产生准确的先验知识。此外,我们设计了 Prior-Guide Large Window Transformer (PLWformer) 作为 DM 的解码器,它可以扩展感受野,同时充分利用 DM 产生的先验知识,以确保重建的 MR 图像保持不失真。在公共和临床数据集上进行的大量实验表明,我们的 DiffMSR 1 优于最先进的方法。
扩散模型在建模复合物和多模态轨迹分布方面表现出色,以进行决策和控制。最近提出了奖励级别指导的denoising,以生成轨迹,从而最大程度地提高了可差异的奖励函数,又是扩散模型捕获的数据分布下的可能性。奖励级别指导的denoisising需要适合清洁和噪声样本的可区分奖励功能,从而限制了其作为一般轨迹优化器的应用。在本文中,我们提出了扩散-ES,一种将无梯度优化与轨迹deNoising结合起来的方法,以优化黑框非差异性目标,同时留在数据管理中。扩散-ES样品在进化过程中的轨迹 - 从扩散模型中搜索,并使用黑框奖励函数得分。它使用截断的扩散过程突变高得分轨迹,该过程应用了少量的no弱和降解步骤,从而可以更有效地探索解决方案空间。我们表明,扩散-ES在Nuplan上实现了最先进的表现,Nuplan是一个已建立的闭环计划基准,用于自动驾驶。扩散-ES的表现优于现有的基于抽样的计划者,反应性确定性或基于扩散的策略以及奖励梯度指导。此外,我们表明,与先前的指导方法不同,我们的方法可以优化由少数弹药LLM提示产生的非差异性语言形状奖励功能。这使我们能够解决最困难的NUPLAN场景,这些方案超出了现有的传统优化方法和驾驶策略的能力。在以遵循指示的人类老师的指导下,我们的方法可以产生新颖的,高度复杂的行为,例如训练数据中不存在的积极的车道编织。1
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
在计算机图形学中创建高质量的材质是一项具有挑战性且耗时的任务,需要很高的专业知识。为了简化这个过程,我们引入了 MatFuse,这是一种统一的方法,它利用扩散模型的生成能力来创建和编辑 3D 材质。我们的方法整合了多种条件来源,包括调色板、草图、文本和图片,增强了创造可能性并对材质合成进行了细粒度的控制。此外,MatFuse 通过多编码器压缩模型的潜在操作实现了地图级材质编辑功能,该模型可以学习每个地图的解开的潜在表示。我们在多种条件设置下展示了 MatFuse 的有效性,并探索了材质编辑的潜力。最后,我们根据 CLIP-IQA 和 FID 分数定量评估生成材质的质量,并通过开展用户研究定性评估生成材质的质量。用于训练 MatFuse 的源代码和补充材料可在 https://gvecchio.com/matfuse 上公开获取。
我们使用2D扩散模型引入了多视图祖传采样(MAS),这是一种3D运动生成的方法,这些方法是根据从野外视频中获得的动作进行训练的。因此,MAS为以前探索了3D数据而稀缺且难以收集的机会为令人兴奋和多样化的运动领域打开了机会。MAS通过同时降低多个2D运动序列来起作用,代表了同一3D运动的不同视图。它通过将单个世代组合到统一的3D序列中,并将其投影回原始视图,从而确保每个扩散步骤中所有视图的共识。我们在2D姿势数据上展示了MAS,从描述了演习篮球运动的视频中获取的数据,节奏的体操在带有球设备的节奏和赛马。在这些域中的每个域中,3D运动捕获都很艰难,但是,MAS生成了多样化和现实的3D序列。不喜欢分数蒸馏方法,该方法通过反复应用小固定来优化每个样品,我们的方法使用了为扩散框架构建的采样过程。正如我们所证明的那样,MAS避免了常见的措施,例如室外采样和模式折叠。https://guytevet.github.io/mas-page/
扩散模型代表文本到图像生成中的新范式。除了从文本提示中生成高质量的图像之外,诸如稳定扩散之类的模型已成功扩展到了共同生成的分段伪遮罩。但是,当前的敏感主要依赖于提取与用于图像合成的及时单词相关的关注。这种方法限制了从文本提示中未包含的单词代币中得出的分割掩码的产生。在这项工作中,我们介绍了开放式摄影注意力图(OVAM) - 用于文本到图像扩散模型的无训练方法,可为任何单词生成注意力图。此外,我们提出了一个基于OVAM的轻巧优化过程,用于查找具有单个注释的对象类的准确注意图。
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
在数据科学和机器学习的不断发展的景观中,时间序列建模的领域已成为一个重要且挑战性的研究领域。时间序列数据及其独特的时间依赖性和顺序模式,在金融,医疗保健和气候科学等各个领域中找到了应用[1,2,3]。时间序列的准确建模对于创建强大的模型和理解复杂系统至关重要。建模时间序列的一种方法是通过生成模型[4],该模型在异常检测[5]和数据增强[6]中具有实际应用。在本文中,我们提出了一种基于时间序列生成和建模的神经SDE的新颖方法。尤其是,我们旨在创建一个可以利用默顿模型[3]作为跳跃框架的模型,该模型可以考虑实际市场的跳跃。归一化流是具有易生化密度估计的生成模型家族。主要思想是通过组成几个函数f i将初始复杂的数据分散分散转换为一个简单的想法。有一些
