使用扩散模型进行图像修复通常使用预条件模型(即针对绘画任务进行微调的图像条件模型)或后条件模型(即在推理时重新用于绘画任务的非条件模型)。预条件模型在推理时很快,但训练成本极高。后条件模型不需要任何训练,但在推理过程中很慢,需要多次前向和后向传递才能收敛到理想的解决方案。在这里,我们推导出一种不需要昂贵训练但推理速度很快的方法。为了解决昂贵的推理计算时间,我们在潜在空间而不是图像空间上执行前向-后向融合步骤。这是通过扩散过程中新提出的传播模块解决的。在多个领域进行的实验表明,我们的方法达到或改善了状态
3D人姿势估计(3D HPE)任务使用2D图像或视频来预测3D空间中的人类关节坐标。尽管最新的基于深度学习的方法取得了进步,但它们主要忽略了可访问的文本和自然可行的人类知识的能力,而错过了有价值的隐性监督,以指导3D HPE任务。此外,以前的努力经常从整个人体的角度研究这项任务,从而忽略了隐藏在不同身体部位的细粒度指导。为此,我们基于3D HPE的扩散模型(名为FinePose)提出了一个新的细粒及时驱动的DeNoiser。它由三个核心块组成,增强了扩散模型的反向过程:(1)通过耦合辅助辅助文本和可学习的提示以模拟隐式指南的耦合知识,并通过耦合的辅助辅助文本和自然可行的零件知识,可以通过耦合的辅助辅助文本和自然可行的零件知识来构建精细的部分零件感知的提示。(2)Fine-
摘要我们提出了一种新的多模式面部图像生成方法,该方法将文本提示和视觉输入(例如语义掩码或涂鸦图)转换为照片真实的面部图像。为此,我们通过使用DM中的多模式特征在预训练的GAN的潜在空间中使用多模式特征来结合一般的对抗网络(GAN)和扩散模型(DMS)的优势。我们提供了一个简单的映射和一个样式调制网络,可将两个模型链接起来,并在特征地图和注意力图中将有意义的表示形式转换为潜在代码。使用gan inversion,估计的潜在代码可用于生成2D或3D感知的面部图像。我们进一步提出了一种多步训练策略,该策略将文本和结构代表反映到生成的图像中。我们提出的网络生成了现实的2D,多视图和风格化的面部图像,这些图像与输入很好。我们通过使用预训练的2D和3D GAN来验证我们的方法,我们的结果表现优于现有方法。我们的项目页面可在https://github.com/1211SH/diffusion-driven_gan-inversion/。
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
扩散概率模型(DDPM)[39,40],通过开发合适的3D表示,例如,体积网格[50],点云[3,53],三角形网格[24,32],隐式含量[24,32],隐式代表[12,28,36,36,36,36,56,36,56,36,36,36,56)。但是,这些生成模型的一个共同主题是匹配由训练数据定义的经验分布以及从潜在空间的先前分布中得出的诱导分布。这些方法在3D域中对下游应用程序至关重要的3D域中没有明确模型。考虑使用隐式形状代表的许多状态形状发生器。合成形状通常具有断开的作品,并具有其他物理稳定性和几何可行性的问题。现有技术的一个主要问题是,他们只看到培训实例,这是一组非常稀疏的样本。但是,它们没有对合成实例的几何和物理特性进行建模。这种问题不容易通过开发合适的神经代表来解决。随着人造形状具有多种拓扑结构,在可以对不同拓扑结构建模的代表下执行这些属性,例如隐式表面和点云仍然非常具有挑战性。在本文中,我们介绍了一种名为GPLD3D的新颖方法,该方法极大地增强了合成形状的几何学性和物理稳定性。考虑一个预先训练的生成模型,该模型将潜在空间映射到形状空间。我们将潜在扩散范式[12,34,36,56]证明是一种最先进的形状基因产生模型。与训练一个扩散模型不同,该模型将潜在空间的高斯分布映射到由训练形状的潜在代码定义的经验分布,我们介绍了一个潜在代码的优质检查器,以定义潜在空间的连续正规化分布。此质量检查器集成了一个学到的功能,该功能量化了合成形状的几何可行性评分以及量化其物理稳定性评分的刚度ma-Trix的光谱特性。我们展示了如何扩展最新的扩散框架EDM [20],以整合数据分布和学习质量的denoising网络的质量检查器。关键贡献是一种原则性的方法,它决定了数据分散的损失条款与不同噪声水平的质量检查器之间的权衡参数。我们已经评估了shapenet-v2上GPLD3D的性能[6]。实验结果表明,在多个指标上,GPLD3D显着优于最先进的形状发生器。我们还提出了一项消融研究,以证明合并质量检查器并优化训练损失的超参数的重要性。
摘要在2018年和2019年,Heatwaves在全球范围内创造了历史记录,并对人类健康,农业,自然生态系统和基础设施造成了不利影响。通常,严重影响与热浪的关节空间和时间范围有关,但是到目前为止,大多数研究都集中在热浪的空间或时间属性上。此外,很少讨论热浪特征对在温暖气候下选择热波阈值的敏感性。在这里,我们在全球气候模型的模拟中分析了最大的时空中度热浪(即炎热日的三维(时空)簇)。我们使用三个不同的危险阈值来定义炎热的一天:固定阈值(时间不变的气候阈值),根据夏季平均值的变化,季节性移动阈值以及完全移动的阈值(相对于未来的气候学定义的炎热日子)。我们发现,使用固定阈值的全球变暖,时空连续的中度连续热带大幅增加,而其他两个危险阈值的变化却不那么明显。尤其是,当使用时间完全移动的阈值相对于将来的气候定义时,检测到热浪定义的整体幅度,空间范围和持续时间的变化很小或很少。这表明与全球气候模型模拟中的动态效应相比,热力学的主要贡献。季节性移动和完全移动的阈值之间的相似性表明,单独的季节性平均变暖可以解释极端变暖的大部分。在潜在的未来热有关影响的预测中应考虑模拟未来热浪对危险阈值的强烈敏感性。
摘要。现实世界图像超分辨率(RISR)旨在从退化的低分辨率(LR)输入中重新结构高分辨率(HR)图像,以应对诸如模糊,噪声和压缩工件之类的挑战。与传统的超分辨率(SR)不同,该方法通过合成的下采样来典型地生成LR图像,而RISR则是现实世界中降级的复杂性。为了有效地应对RISR的复杂挑战,我们适应了无分类器指导(CFG),这是一种最初用于多级图像生成的技术。我们提出的方法,真实的SRGD(带有无分类器引导扩散的现实世界图像超分辨率),将RISR挑战分解为三个不同的子任务:盲图恢复(BIR),常规SR和RISR本身。然后,我们训练针对这些子任务量身定制的类别条件SR扩散模型,并使用CFG来增强现实世界中的超分辨率效果。我们的经验结果表明,实际SRGD超过了定量指标和定性评估中的现有最新方法,如用户研究所证明的那样。此外,我们的方法在
众所周知,有机闪烁探测器的响应函数不会出现光峰。相反,它们的主要特征是连续体,通常称为康普顿边缘,它天生就暴露了检测系统的分辨率特性。虽然准确表征康普顿边缘对于校准目的至关重要,但它也负责阐述探测器的能量分辨率。本文介绍了一种准确表征有机闪烁探测器康普顿边缘的简单方法。该方法基于这样一个事实:微分响应函数可以准确估计构成函数。除了康普顿边缘的位置之外,微分方法还可以深入了解折叠高斯函数的参数,从而可以描述能量分辨率。此外,据观察,响应函数测量中的不相关噪声不会对评估造成重大不确定性,因此即使在低质量测量中也可以保留其功能。通过模拟束缚电子并考虑多普勒效应,我们能够首次展示有机塑料闪烁体固有多普勒分辨率的估计。尽管如此,这种可能性是受益于所提出的康普顿连续体分析方法的直接结果。
在计算机图形学中创建高质量的材质是一项具有挑战性且耗时的任务,需要很高的专业知识。为了简化这个过程,我们引入了 MatFuse,这是一种统一的方法,它利用扩散模型的生成能力来创建和编辑 3D 材质。我们的方法整合了多种条件来源,包括调色板、草图、文本和图片,增强了创造可能性并对材质合成进行了细粒度的控制。此外,MatFuse 通过多编码器压缩模型的潜在操作实现了地图级材质编辑功能,该模型可以学习每个地图的解开的潜在表示。我们在多种条件设置下展示了 MatFuse 的有效性,并探索了材质编辑的潜力。最后,我们根据 CLIP-IQA 和 FID 分数定量评估生成材质的质量,并通过开展用户研究定性评估生成材质的质量。用于训练 MatFuse 的源代码和补充材料可在 https://gvecchio.com/matfuse 上公开获取。