深神经网络(DNNS)在许多AI地球观察应用中(AI4EO)中作为关键解决方案的突出性(AI4EO)上升。然而,它们对对抗例子的敏感性构成了一个关键的挑战,损害了AI4EO算法的可靠性。本文在遥感图像(UAD-RS)中提出了一种新型的通用对抗防御方法,利用预训练的扩散模型来保护DNN免受表现出异质对抗模式的各种对抗性示例。具体而言,使用预训练的扩散模型开发了通用的对抗纯化框架,通过引入高斯噪声以及随后从对抗性示例中对扰动的纯化来减轻对抗的扰动。此外,还引入了自适应噪声水平选择(ANL)机制,以确定具有任务指导的Fréchet成立距离(FID)排名策略的纯化框架的最佳噪声水平,从而提高了纯化性能。因此,仅需要一个预训练的扩散模型来净化每个数据集的各种对抗性示例,这些示例具有异质性的对抗模式,从而大大降低了多个攻击设置的训练工作,同时在没有对抗扰动的情况下保持高性能。对四个异质RS数据集进行的实验结果,重点是场景分类和语义分割,表明UAD-RS的表现优于最先进的对抗性纯化方法,从而为七个常见的遇到的对抗性扰动提供了普遍的防御。com/ericyu97/uad-rs)。代码和预训练的模型可在线获得(https://github。
蛋白质结构预测场通过蛋白质折叠模型(例如α2和Esmfold)进行了深入的学习革命。这些模型可以快速进行计算机预测,并已整合到从头蛋白设计和蛋白质 - 蛋白质相互作用(PPI)预测中。然而,这些模型无法估计取决于构象分布的生物学相关特征。扩散模型是一种新型的生成模型,已经开发出来学习构象分布并应用于从头蛋白质设计。有限的工作是对蛋白质结构插入的有限工作,在该蛋白质结构上,通过同时调节其序列和其余结构来恢复蒙版的截面。在这项工作中,我们提出了构架的iff i n p ain t ing(frameDipt),这是一种蛋白质授予的广义模型。这对于T细胞很重要,鉴于互补性确定区域(CDR)环的超变量性。,我们评估了T细胞受体的CDR回路设计模型,并通过有限的训练数据和可学习的参数获得了与蛋白烯剂的可比预测准确性和RFDiffusion。与确定性结构预测模型不同,框架捕获了不同区域和结合状态的构象分布,突出了生成模型的关键优势。模型和推理代码已发布1。
在对风味模型的常规分析中,参数的搜索空间通常仅限于一定范围,以在现实的计算时间内优化理论的参数。在本演讲中,我们提出了一种利用扩散模型的分析方法,该模型是一种生成人工智能。与常规方法相比,可以独立于模型的具体细节应用此策略。通过具体的示例,我们将根据基于反问题方法从鸟类的视图中评估风味模型的预测,在该方法中,机器生成了复制实验值的各种参数候选。
示例:VAE /扩散模型•True P*(x 0)是在拍摄的照片上分发并发布到Flikr•选择Pθ(x 0)作为表达模型(例如< / div>可以生成图像
以扩散模型的出现作为生成模型的前线,许多研究人员提出了通过条件扩散模型的分子产生技术。但是,分子的不可避免的离散性使扩散模型很难将原始数据与自然语言等高度复杂的条件连接起来。为了解决这个问题,我们提出了一种新型潜在扩散模型,称为文本条件分子的生成。ldmol构建了一种分子自动编码器,该自动编码器可产生可学习且结构上的特征空间,并具有自然语言条件的潜在扩散模型。特别是认识到多个微笑符号可以代表相同的分子,我们采用对比度学习策略来提取特征空间,以了解分子结构的独特特征。ldmol优于文本到整体生成基准的现有基准,建议扩散模型可以在文本数据生成中胜过自回旋模型,而潜在的潜在域则更好。此外,我们表明LDMOL可以应用于下游任务,例如分子到文本检索和文本引导的分子编辑,表明其作为扩散模型的多功能性。
最近的生成方法显示出有希望的盲人恢复性能。他们通常将退化的图像投射到潜在空间,然后通过单阶段潜在优化或直接从启动编码来解码高质量的面孔。对投入的信仰产生细粒度的面部细节仍然具有挑战性。大多数现有的方法产生过度平滑的输出或改变身份。这可能归因于潜在空间中质量和分辨率之间的典型权衡。如果潜在的压缩高度压缩,则解码的输出对降解更为强大,但忠诚度较差。另一方面,更灵活的潜在空间可以更好地捕获错综复杂的偏僻,但是对于高度退化的面孔来说,极其难以优化。我们在VQGAN体系结构中引入了基于扩散的优势,该基于未腐烂的潜在嵌入的分布而引起了研究。我们迭代地恢复了降解的柜台上的清洁嵌入条件。此外,为了确保反向扩散轨迹不会偏离潜在的身份,我们训练一个单独的身份恢复网络,并使用其输出来限制反向差异。具体来说,使用可学习的潜在面膜,我们将面部识别网络的梯度添加到一个潜在特征的子集中,这些特征与像素空间中与身份相关的细节相关联,使其他功能未触及。在潜在空间中的感知和忠诚之间的分离使我们能够达到两全其美。我们对多个真实和合成数据集进行了广泛的评估,以验证我们的方法。
鉴于通过扩散模型在图像生成中取得的显着成就,研究界表明,对将这些模型扩展到视频生成的兴趣越来越大。视频生成的最新扩散模型主要利用注意层提取时间特征。但是,注意层受其记忆消耗的限制,这随序列的长度四倍增加。在尝试使用扩散模型生成更长的视频序列时,这一限制提出了重大挑战。为了克服这一挑战,我们提出了利用状态空间模型(SSM)。SSM最近由于其线性记忆消耗相对于序列长度而成为可行的替代方案。在实验中,我们首先使用UCF101(视频生成的标准基准)评估了基于SSM的模型。此外,为了调查SSM对更长的视频生成的潜力,我们使用Minerl导航数据集执行了一个实验,将帧数变化为64、200和400。在这些设置中,我们的基于SSM的模型可以为更长的序列节省内存消耗,同时将竞争性的FVD分数保持在基于注意力的模型中。
最近,视频合成的进步引起了极大的关注。视频综合模型(例如AnimateIff和稳定的视频扩散)已经证明了扩散模型在创建动态视觉内容时的实际适用性。Sora的出现进一步介绍了视频生成技术的潜力。尽管有进步,但视频长度的扩展仍受到计算资源的限制。大多数现有的视频综合模型仅限于生成简短的视频剪辑。在本文中,我们提出了一种新型的视频合成模型的调节后方法,称为exvideo。这种方法旨在增强当前视频合成模型的能力,使它们能够在延长的时间持续时间内生成内容,同时产生较低的培训支出。尤其是我们分别设计了跨常见的时间模型体系结构的扩展策略,包括3D综合,时间关注和位置嵌入。为了评估我们提出的调整后方法的功效,我们训练了EXSVD,这是一种基于稳定的视频扩散模型的扩展模型。我们的方法增强了该模型最多生成5倍帧数的能力,仅需在包含40k视频的数据集上进行1.5k GPU小时的培训。重要的是,视频长度的实质性增加不会损害模型的先天概括功能,并且该模型在生成各种样式和决议的视频方面具有优势。我们将公开发布源代码和增强模型1。
摘要:在过去的几年中,扩散模型(DMS)达到了前所未有的视觉质量水平。然而,对DM生成图像的检测几乎没有关注,这对于防止对我们社会的不利影响至关重要。相比之下,从法医角度对生成对抗网络(GAN)进行了广泛的研究。在这项工作中,我们采取自然的下一步来评估是否可以使用以前的方法来检测DMS生成的图像。我们的实验产生了两个关键发现:(1)最新的GAN检测器无法可靠地区分真实图像,但是(2)在DM生成的图像上重新训练它们几乎可以完美地检测,甚至可以显着将其推广到GAN。与特征空间分析一起,我们的结果导致了以下假设:DMS产生的可检测到的伪影较少,因此与gan相比更难检测到。造成这种情况的一个可能原因是在DM生成的图像中没有网格样频率伪像,这是已知的gan弱点。但是,我们做出了有趣的观察结果,即扩散模型倾向于低估高频,这是我们归因于学习目标。
图 1. 沸石生成扩散过程的图形模型。a,本文开发的扩散模型的沸石结构输入表示。b,沸石生成扩散模型的噪声和去噪过程的图形说明。c,沸石网格的渐进采样过程