(*) 汇率为 1,081 美元/欧元:市场潜力 2,7000 亿美元 脱碳 5,400 亿美元 再生 6,500 亿美元 消除污染 1,5,130 亿美元
鉴于通过扩散模型在图像生成中取得的显着成就,研究界表明,对将这些模型扩展到视频生成的兴趣越来越大。视频生成的最新扩散模型主要利用注意层提取时间特征。但是,注意层受其记忆消耗的限制,这随序列的长度四倍增加。在尝试使用扩散模型生成更长的视频序列时,这一限制提出了重大挑战。为了克服这一挑战,我们提出了利用状态空间模型(SSM)。SSM最近由于其线性记忆消耗相对于序列长度而成为可行的替代方案。在实验中,我们首先使用UCF101(视频生成的标准基准)评估了基于SSM的模型。此外,为了调查SSM对更长的视频生成的潜力,我们使用Minerl导航数据集执行了一个实验,将帧数变化为64、200和400。在这些设置中,我们的基于SSM的模型可以为更长的序列节省内存消耗,同时将竞争性的FVD分数保持在基于注意力的模型中。
不规则的时间序列在医疗保健中无处不在,应用程序从预测患者的健康状况到归咎于缺失值的应用。条件扩散模型中的最新开发方法,这些模型基于观察到的数据预测缺失值,对定期定期时间序列的构成有很大的希望。它还通过用注入可变量表的噪声替换部分掩盖的局部掩盖来概括了掩盖重建的自我监督学习任务,并显示了图像识别的竞争结果。尽管对扩散模型的兴趣日益增强,但它们对不规则时间序列数据的潜力,尤其是在下游任务中,仍然没有被逐渐置换。我们提出了一个有条件的扩散模型,该模型设计为一种自我监督的学习骨干,用于此类数据,集成了可学习的时间嵌入以及一种跨维度注意机制,以解决数据的复杂时间动态。该模型不仅适合有条件的生成任务,而且还获得了隐藏的状态,对歧视任务有益。经验证据证明了我们的模型在插补和分类任务中的优势。
我们提出了直接的奖励微调(草稿),这是一种简单有效的方法,用于调整扩散模型,以最大程度地提高可区分的奖励功能,例如人类偏好模型的分数。我们首先表明,可以通过完整的抽样程序将奖励函数梯度进行后退,并且这样做可以在各种奖励上实现强劲的绩效,超过了基于强化学习的方法。然后,我们提出了草稿:草稿K的更多有效变体,该变体仅将反向传播截断为采样的最后K步骤,而Draft-LV则获得了k = 1时的较低差异梯度估计。我们表明,我们的方法在各种奖励功能上都很好地工作,可以用来实质上提高稳定扩散1.4产生的图像的美学质量。最后,我们在方法和先前的工作之间建立了联系,从而提供了基于基于梯度的细胞调整算法的设计空间的统一观点。
从扩散模型中的合成样本对于训练歧视模型作为重复或增强真实培训数据集有希望。但是,我们发现合成数据集在同一数据集大小上比较它们时,合成数据集降低了分类性能。这意味着现代扩散模型的合成样本对于训练歧视任务的信息较少。本文通过分析从实际样品(扩散)(扩散)和脱氧(反向)扩散模型过程中从真实样品重建的合成样品来研究合成和真实样品之间的差距。通过改变重建的时间步骤开始反向过程的时间步骤,我们可以控制原始真实数据中的信息与扩散模型产生的信息之间的权衡。通过评估重建的样品和训练有素的模型,我们发现合成样品集中在训练数据分布的模式中,随着反向步骤的增加,它们很难覆盖分布的外边缘。相反,我们发现这些合成样本在使用真实和合成样品的数据设置中产生了显着改善,这表明模式周围的样品可作为学习分类边界的插值有用。这些发现表明,现代扩散模型目前不足以复制相同数据集大小的真实培训数据集,但适合将真实培训样本作为增强数据集进行插值。
通过随机微分方程(SDE)基于得分的建模已对扩散模型有了新的视角,并在连续数据上证明了出色的绩效。但是,log-likelihood函数的梯度,即,分数函数未正确定义用于离散空间。这使得将基于得分的建模调整为分类数据并不乏味。在本文中,我们通过引入随机跳跃过程将反向过程通过连续的Markov链进行反向过程来扩散变量。此公式在向后采样期间接受分析模拟。要学习反向过程,我们将分数匹配扩展到一般的分类数据,并表明可以通过简单的条件边缘分布来获得公正的估计器。我们演示了构成方法在一组合成和现实世界的音乐和图像基准中的有效性。
最近开发的离散扩散模型在文本到图像任务中表现出色,显示出处理多形式信号的巨大希望。在这项工作中,我们利用这些特征,并提出一个可以使用单个模型,基于文本的,基于图像的,甚至具有远见性的同时生成的统一的模型模型,该模型可以执行“模态翻译”和“多模式生成”任务。具体而言,我们通过提出一个统一的过渡矩阵来统一多模式信号的离散扩散过程。此外,我们设计了一个具有融合嵌入层和统一的目标函数的相互注意模块,以强调模式间链接,这对于多模式生成至关重要。广泛的实验表明,我们提出的方法可以与各种一代任务中的最新解决方案相当地执行。
扩散模型在生成建模中取得了前所未有的性能。扩散模型常用的潜在代码公式是一系列逐渐去噪的样本,而不是 GAN、VAE 和正则化流的更简单(例如高斯)潜在空间。本文提供了扩散模型潜在空间的替代高斯公式,以及将图像映射到潜在空间的可重构 DPM 编码器。虽然我们的公式纯粹基于扩散模型的定义,但我们展示了几个有趣的后果。(1)从实证上讲,我们观察到在相关领域独立训练的两个扩散模型会出现一个共同的潜在空间。根据这一发现,我们提出了 CycleDiffusion,它使用 DPM 编码器进行非配对的图像到图像转换。此外,将 CycleDiffusion 应用于文本到图像的扩散模型,我们表明大规模文本到图像的扩散模型可用作零样本图像到图像编辑器。(2)人们可以通过控制基于能量模型的统一即插即用公式中的潜在代码来指导预训练的扩散模型和 GAN。使用 CLIP 模型和人脸识别模型作为指导,我们证明扩散模型比 GAN 对低密度亚群和个体的覆盖率更高。1
