我们使用2D扩散模型引入了多视图祖传采样(MAS),这是一种3D运动生成的方法,这些方法是根据从野外视频中获得的动作进行训练的。因此,MAS为以前探索了3D数据而稀缺且难以收集的机会为令人兴奋和多样化的运动领域打开了机会。MAS通过同时降低多个2D运动序列来起作用,代表了同一3D运动的不同视图。它通过将单个世代组合到统一的3D序列中,并将其投影回原始视图,从而确保每个扩散步骤中所有视图的共识。我们在2D姿势数据上展示了MAS,从描述了演习篮球运动的视频中获取的数据,节奏的体操在带有球设备的节奏和赛马。在这些域中的每个域中,3D运动捕获都很艰难,但是,MAS生成了多样化和现实的3D序列。不喜欢分数蒸馏方法,该方法通过反复应用小固定来优化每个样品,我们的方法使用了为扩散框架构建的采样过程。正如我们所证明的那样,MAS避免了常见的措施,例如室外采样和模式折叠。https://guytevet.github.io/mas-page/
文本对图像(T2I)生成模型最近成为一种强大的工具,可以创建照片现实的图像并引起多种应用。然而,将T2i模型的有效整合到基本图像分类任务中仍然是一个悬而未决的问题。促进图像锁骨表现的一种普遍的策略是通过使用T2I模型生成的合成图像来增强训练集。在这项研究中,我们仔细检查了当前发电和常规数据增强技术的缺点。我们的分析表明,这些方法努力产生既忠实的(就前景对象)而且针对领域概念的多样化(在背景上下文中)。为了应对这一挑战,我们引入了一种创新的类数据增强方法,称为diff-mix 1,该方法通过在类之间执行图像翻译来丰富数据集。我们的经验结果是,DIFF-MIX在信仰和多样性之间取得了更好的平衡,从而导致各种图像分类场景之间的性能显着提高,包括域名数据集的少量,常规和长尾分类。
在数据科学和机器学习的不断发展的景观中,时间序列建模的领域已成为一个重要且挑战性的研究领域。时间序列数据及其独特的时间依赖性和顺序模式,在金融,医疗保健和气候科学等各个领域中找到了应用[1,2,3]。时间序列的准确建模对于创建强大的模型和理解复杂系统至关重要。建模时间序列的一种方法是通过生成模型[4],该模型在异常检测[5]和数据增强[6]中具有实际应用。在本文中,我们提出了一种基于时间序列生成和建模的神经SDE的新颖方法。尤其是,我们旨在创建一个可以利用默顿模型[3]作为跳跃框架的模型,该模型可以考虑实际市场的跳跃。归一化流是具有易生化密度估计的生成模型家族。主要思想是通过组成几个函数f i将初始复杂的数据分散分散转换为一个简单的想法。有一些
最近,扩散模型 (DM) 已应用于磁共振成像 (MRI) 超分辨率 (SR) 重建,并表现出令人印象深刻的性能,尤其是在细节重建方面。然而,当前基于 DM 的 SR 重建方法仍然面临以下问题:(1)它们需要大量迭代来重建最终图像,效率低下且消耗大量计算资源。(2)这些方法重建的结果通常与真实的高分辨率图像不一致,导致重建的 MRI 图像出现明显失真。为了解决上述问题,我们提出了一种用于多对比 MRI SR 的有效扩散模型,称为 DiffMSR。具体而言,我们在高度紧凑的低维潜在空间中应用 DM 来生成具有高频细节信息的先验知识。高度紧凑的潜在空间确保 DM 只需要几次简单的迭代即可产生准确的先验知识。此外,我们设计了 Prior-Guide Large Window Transformer (PLWformer) 作为 DM 的解码器,它可以扩展感受野,同时充分利用 DM 产生的先验知识,以确保重建的 MR 图像保持不失真。在公共和临床数据集上进行的大量实验表明,我们的 DiffMSR 1 优于最先进的方法。
无分类器指导(CFG)已广泛用于文本到图像扩散模型中,其中引入了CFG量表以控制整个图像空间的文本指导强度。但是,我们认为全球CFG量表会导致空间不一致,这是不同的脱节优势和次优的图像质量。为了解决这个问题,我们提出了一种新颖的方法,即语义意识的无分类器指导(S-CFG),以自定义文本到图像扩散模型中不同语义单元的指导学位。具体来说,我们首先设计了一种训练 - 免费的语义分割方法,将潜在图像分配到每个Denoising步骤中相对独立的语义区域。尤其是,将U-NET主链中的跨意义图被重新归一化,以将每个贴片分配给相应的令牌,而自我注意力图则用于完成语义区域。然后,为了平衡各种语义单元的扩增,我们会自适应地调整各个不同区域的CFG尺度,以将文本指导学度重新确定为统一水平。最后,广泛的实验证明了S-CFG优于原始CFG策略在各种文本到图像扩散模型上的优越性,而无需任何额外的培训成本。我们的代码可在https://github.com/smilesdzgk/s-cfg上找到。
扩散模型由于其众多优点已成为一种流行的图像生成和重建方法。然而,大多数基于扩散的逆问题解决方法仅处理二维图像,即使是最近发表的三维方法也没有充分利用三维分布先验。为了解决这个问题,我们提出了一种新方法,使用两个垂直的预训练二维扩散模型来解决三维逆问题。通过将三维数据分布建模为不同方向切片的二维分布的乘积,我们的方法有效地解决了维数灾难。我们的实验结果表明,我们的方法对于三维医学图像重建任务非常有效,包括 MRI Z 轴超分辨率、压缩感知 MRI 和稀疏视图 CT。我们的方法可以生成适合医疗应用的高质量体素体积。代码可在 https://github.com/hyn2028/tpdm 获得
摘要该扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模可容纳,以扩展其对视觉数据生成的适用性。首先,我们确定了大多数基于MAMBA的视力方法的关键监督,即缺乏对Mamba扫描方案中空间连续性的考虑。Secondly, build- ing upon this insight, we introduce Zigzag Mamba, a simple, plug-and- play, minimal-parameter burden, DiT style solution, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines, also this heteroge- neous layerwise scan enables zero memory and speed burden when we consider more scan paths.最后,我们将Zigzag Mamba与随机插值框架整合在一起,以研究大分辨率视觉数据集上该模型的可扩展性,例如FaceShQ 1024×1024和UCF101,Multimopal-Celeba-HQ,以及MS Coco 256×256。
在计算机图形学中创建高质量的材质是一项具有挑战性且耗时的任务,需要很高的专业知识。为了简化这个过程,我们引入了 MatFuse,这是一种统一的方法,它利用扩散模型的生成能力来创建和编辑 3D 材质。我们的方法整合了多种条件来源,包括调色板、草图、文本和图片,增强了创造可能性并对材质合成进行了细粒度的控制。此外,MatFuse 通过多编码器压缩模型的潜在操作实现了地图级材质编辑功能,该模型可以学习每个地图的解开的潜在表示。我们在多种条件设置下展示了 MatFuse 的有效性,并探索了材质编辑的潜力。最后,我们根据 CLIP-IQA 和 FID 分数定量评估生成材质的质量,并通过开展用户研究定性评估生成材质的质量。用于训练 MatFuse 的源代码和补充材料可在 https://gvecchio.com/matfuse 上公开获取。
3D人姿势估计(3D HPE)任务使用2D图像或视频来预测3D空间中的人类关节坐标。尽管最新的基于深度学习的方法取得了进步,但它们主要忽略了可访问的文本和自然可行的人类知识的能力,而错过了有价值的隐性监督,以指导3D HPE任务。此外,以前的努力经常从整个人体的角度研究这项任务,从而忽略了隐藏在不同身体部位的细粒度指导。为此,我们基于3D HPE的扩散模型(名为FinePose)提出了一个新的细粒及时驱动的DeNoiser。它由三个核心块组成,增强了扩散模型的反向过程:(1)通过耦合辅助辅助文本和可学习的提示以模拟隐式指南的耦合知识,并通过耦合的辅助辅助文本和自然可行的零件知识,可以通过耦合的辅助辅助文本和自然可行的零件知识来构建精细的部分零件感知的提示。(2)Fine-
摘要我们提出了一种新的多模式面部图像生成方法,该方法将文本提示和视觉输入(例如语义掩码或涂鸦图)转换为照片真实的面部图像。为此,我们通过使用DM中的多模式特征在预训练的GAN的潜在空间中使用多模式特征来结合一般的对抗网络(GAN)和扩散模型(DMS)的优势。我们提供了一个简单的映射和一个样式调制网络,可将两个模型链接起来,并在特征地图和注意力图中将有意义的表示形式转换为潜在代码。使用gan inversion,估计的潜在代码可用于生成2D或3D感知的面部图像。我们进一步提出了一种多步训练策略,该策略将文本和结构代表反映到生成的图像中。我们提出的网络生成了现实的2D,多视图和风格化的面部图像,这些图像与输入很好。我们通过使用预训练的2D和3D GAN来验证我们的方法,我们的结果表现优于现有方法。我们的项目页面可在https://github.com/1211SH/diffusion-driven_gan-inversion/。