摘要该扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模可容纳,以扩展其对视觉数据生成的适用性。首先,我们确定了大多数基于MAMBA的视力方法的关键监督,即缺乏对Mamba扫描方案中空间连续性的考虑。Secondly, build- ing upon this insight, we introduce Zigzag Mamba, a simple, plug-and- play, minimal-parameter burden, DiT style solution, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines, also this heteroge- neous layerwise scan enables zero memory and speed burden when we consider more scan paths.最后,我们将Zigzag Mamba与随机插值框架整合在一起,以研究大分辨率视觉数据集上该模型的可扩展性,例如FaceShQ 1024×1024和UCF101,Multimopal-Celeba-HQ,以及MS Coco 256×256。
摘要。扩散模型已成为生成建模的强大框架。该方法的核心是分数匹配:在不同尺度上,数据分布的嘈杂版本的对数密度的学习梯度。当使用经验数据而不是人口损失评估评分匹配中采用的损失函数时,最小化器对应于时间依赖的高斯混合物的得分。但是,使用此分析可牵引的最小化器会导致数据记忆:在无条件和条件设置中,生成模型都返回训练样本。本文包含对记忆潜在的动力学机制的分析。分析强调了避免重现分析可牵引的最小化器的正规化的必要性;而且,这样做的基础是对如何正规化的原则理解。数值实验研究了:(i)Tikhonov正则化的特性; (ii)旨在促进渐近一致性的正则化; (iii)通过训练神经网络的神经网络的参数不足或提早停止引起的正常化。这些实验是在记忆的背景下评估的,并突出了未来正规化发展的方向。
心血管疾病(CVD)的高流行率要求可访问且具有成本效益的连续心脏监测工具。尽管心电图(ECG)是黄金标准,但连续监测仍然是一个挑战,导致探索光摄影学(PPG),这是一种有希望的但更基本的替代方案,可在消费者可穿戴设备中获得。这个概念最近引发了将PPG转化为ECG信号的兴趣。在这项工作中,我们介绍了区域限制扩散模型(RDDM),这是一种新型扩散模型,旨在捕获ECG的复杂时间动力学。传统的扩散模型,例如deno deno扩散概率模型(DDPM)在捕获整个信号中不可分犯的噪声过程中捕获这种细微差别时面临挑战。我们提出的RDDM通过企业进行了一个新颖的远期过程来克服这种限制,该过程有选择地将噪声添加到ECG信号中的QRS复合物等特定区域(ROI),以及一个反向过程,该过程散布了ROI和非ROI区域的差异。定量实验表明,RDDM可以在少于10个扩散步骤中从PPG产生高保真性ECG,从而使其非常有效且在计算上有效。此外,为了严格验证所产生的ECG信号的有用性,我们引入了心脏桥,这是针对各种心脏相关任务的全面评估基准,包括心率和血压估计,压力分类以及对心房颤动和糖尿病的检测。我们的详尽实验表明,RDDM在心脏座位上实现了最先进的表现。据我们所知,RDDM是生物信号域中交叉模式信号转换翻译的第一个扩散模型。据我们所知,RDDM是生物信号域中交叉模式信号转换翻译的第一个扩散模型。
摘要。文本到图像模型自定义的最新进展强调了将新概念与一些例外样本集成的重要性。然而,这些进步在很大程度上仅限于广泛认可的科目,可以通过模型的共同的先验知识来相对轻松地学习。相比之下,徽标以独特的模式和文本元素为特征,很难在扩散模型中建立共享知识,从而提出了独特的挑战。为了弥合这一差距,我们介绍了徽标插入的任务。我们的目标是将徽标身份插入扩散模型中,并在各种环境中实现其无缝合成。我们提出了一个新颖的两相管道logosticker来解决这一任务。首先,我们提出了参与者 - 批判性关系预训练al-gorithm,它解决了模型对徽标潜在空间定位的理解和与其他观察者相互作用的潜在空间定位的理解。第二,我们提出了一种脱钩的身份学习算法,该算法可以实现徽标的精确定位和身份提取。LogoSticker可以在不同的环境中准确而和谐地生成徽标。我们全面验证了LogoSticker对自定义方法和大型模型(例如Dalle 3)的有效性。项目页面。
人类擅长识别对象之间的关系并概括抽象关系,例如在各种上下文中“常数”(例如,恒定形状或大小)。机器学习的一个关键目标是为机器提供类似的能力来实现理性推理。最近,扩散模型显示出了产生逼真的图像并捕获综合数据分布(Rombach,Blattmann,Lorenz,Lorenz,Esser,&Ommer,2022年)的无效能力。这些模型还可以模仿抽象关系的人类概括吗?是综合性的,因为它们应该限制的基本数据分布通常是未知的。这些模型的传统评估(例如fid)通常专注于图像多样性和现实主义(Heusel,Ramsauer,Unterthiner,Nessler和Hochreiter,2017年)。但是,一个重要的应用是使生成的图像符合特定的关系规则。这项研究提出了扩散模型是否可以学习和推广定义数据分布的抽象关系。我们利用Raven的渐进式矩阵(RPM)任务,这是测量抽象推理技能的良好基准(Raven,1936)。我们在RPM图像上训练扩散模型具有各种关系规则,并评估其生成遵循训练和新规则的新图像的能力。我们的发现表明,扩散模型可以推广抽象的视觉关系,从而进一步研究其在视觉及其他方面的推理。
基于结构的药物设计 (SBDD) 旨在生成与特定蛋白质靶点结合的 3D 配体分子。现有的 3D 深度生成模型(包括扩散模型)已显示出对 SBDD 的巨大潜力。然而,在 3D 空间中精确捕捉分子生成所必需的蛋白质-配体相互作用非常复杂。为了解决这个问题,我们提出了一个新颖的框架,即结合自适应扩散模型 (BIND DM)。在 BIND DM 中,我们自适应地提取子复合物,即负责蛋白质-配体相互作用的结合位点的基本部分。然后,使用 SE(3) 等变神经网络处理选定的蛋白质-配体子复合物,并将其传输回复合物的每个原子,以通过结合相互作用信息增强靶标感知的 3D 分子扩散生成。我们利用跨层级相互作用节点迭代此层级复合物-子复合物过程,以充分融合复合物与其相应子复合物之间的全局结合上下文。在 Cross-Docked2020 数据集上进行的实证研究表明,B IND DM 可以生成具有更逼真三维结构和更高蛋白靶标结合亲和力的分子,平均 Vina 评分最高可达 -5.92,同时保持适当的分子特性。我们的代码可在 https://github.com/YangLing0818/BindDM 获取。
人群模拟在各种方面都有关键的应用,例如城市规划,建筑设计和传统安排。近年来,物理知识的机器学习方法在人群模拟中实现了最新的性能,但无法全面地对人类运动的异质性和多模式进行建模。在本文中,我们提出了一个名为SPDIFF的社会物理信息扩散模型,以减轻上述差距。SPDIFF同时将人群中人群的互动和历史信息扭转,以扭转扩散过程,从而在子范围内进行了行人运动的分布。受到众所周知的社会物理模型的启发,即社会力量,关于人群的动态,我们签署了人群互动模块,以指导denoings的过程,并通过人群相互作用的等效性属性进一步增强了该模块。为了减轻长期模拟中的误差累积,我们提出了一种用于扩散建模的多帧推出训练算法。在两个现实世界数据集上进行的实验证明了SPDIFF在宏观和Mi-Croscopic评估指标方面的表现。代码和附录可在https://github.com/tsinghua-fib-lab/spdiff上提供。
最近,扩散模型 (DM) 已应用于磁共振成像 (MRI) 超分辨率 (SR) 重建,并表现出令人印象深刻的性能,尤其是在细节重建方面。然而,当前基于 DM 的 SR 重建方法仍然面临以下问题:(1)它们需要大量迭代来重建最终图像,效率低下且消耗大量计算资源。(2)这些方法重建的结果通常与真实的高分辨率图像不一致,导致重建的 MRI 图像出现明显失真。为了解决上述问题,我们提出了一种用于多对比 MRI SR 的有效扩散模型,称为 DiffMSR。具体而言,我们在高度紧凑的低维潜在空间中应用 DM 来生成具有高频细节信息的先验知识。高度紧凑的潜在空间确保 DM 只需要几次简单的迭代即可产生准确的先验知识。此外,我们设计了 Prior-Guide Large Window Transformer (PLWformer) 作为 DM 的解码器,它可以扩展感受野,同时充分利用 DM 产生的先验知识,以确保重建的 MR 图像保持不失真。在公共和临床数据集上进行的大量实验表明,我们的 DiffMSR 1 优于最先进的方法。
机器学习(ML)在统计缩减中起着越来越有价值的作用。能够利用培训数据中潜在的复杂的非线性关系,社区表现出ML学习缩小映射的巨大潜力。遵循完美预后(PP)方法,可以对ML模型进行历史重新分析数据的培训,以了解粗糙预测因子与更高分辨率之间的关系(即缩小)预测。一旦受过训练,这些模型就可以在一般循环模型(GCM)输出上进行评估,以产生区域缩小的结果。由于培训的计算成本相对较低和利用这些模型,它们可用于有效地降低气候模型的大集合,而不是区域与全球域。
从在摄像机传感器中的采集到其存储空间中,进行了不同的操作以生成最终进度。此管道将特定的痕迹印记到图像中以形成自然水印。用图像删除这些痕迹;这些干扰是大多数方法用于检测和定位伪造的线索。在此策略中,我们评估了扩散模型的能力,以消除宽恕和欺骗取证方法留下的痕迹。最近引入了这种方法,以进行对抗纯化,从而实现了重要的表现。我们表明,扩散纯化方法非常适合反法法医学任务。这种方法在欺骗取证方法和保留纯化图像的自然外观方面都超过现有的反构法技术。源代码可在https://github.com/mtailanian/ diff-cf上公开获得。