卷积神经网络(CNN)在几十年前就无法想象的表演,这要归功于采用了数百层和近数十亿个可训练的参数的非常大的模型。然而,解释他们的决策是很不困难的,因为它们是高度非线性的,并且过度参数化。此外,对于现实生活中的应用,如果模型利用数据的伪造相关性来预测预测,则最终用户将怀疑该决定的有效性。尤其是,在医学或关键系统等高风险场景中,ML必须保证使用正确的功能来计算预测并防止伪造的关联。因此,近年来,可解释的人工智能(XAI)研究领域一直在不断发展,以了解黑盒模型中的决策机制。在本文中,我们关注事后解释方法。值得注意的是,我们对反事实解释的不断增长分支(CE)[63]。ce旨在创建输入样本的最小但有意义的扰动,以更改固定预告片模型给出的原始决定。尽管CE和对抗性示例之间的观点具有一些相似之处[44],但CE的扰动必须是可以理解和合理的。相比之下,对抗性示例[37]包含与人眼无法区分的高频噪声。总体而言,CE目标四个目标:(i)解释必须使用(ii)稀疏修改,即具有最小扰动的实例。此外,(iii)解释必须是现实的,并且可以通过
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
扩散生成模型(DMS)在图像和图生成方面取得了有希望的结果。然而,现实世界图,例如社交网络,分子图和交通图,通常共享非欧国人拓扑和隐藏的层次结构。例如,图的度分布主要是幂律分布。当前的潜在扩散模型将层次数据嵌入到欧几里得空间中,从而导致扭曲并干扰建模分布。取而代之的是,由于其指数生长特性,已发现双曲线空间更适合捕获复杂的层次结构。In order to simulta- neously utilize the data generation capabilities of diffusion models and the ability of hyperbolic embeddings to extract la- tent hierarchical distributions, we propose a novel graph gen- eration method called, Hyperbolic Graph Diffusion Model (HGDM), which consists of an auto-encoder to encode nodes into successive hyperbolic embeddings, and a DM that oper- ates in the双曲线潜在空间。HGDM通过构造包含边缘信息的双曲线潜在节点空间来捕获Crucial图结构分布。的实验实验表明,HGDM在通用图和分子生成基准测试中获得了更好的表现,并且具有高度层次结构的图生成质量提高了48%。
摘要:作为对面部识别系统中恶意身份验证的对策,使用了从SNS或类似的面部图像或基于对抗性示例的De-nisteriation方法获得的面部图像。然而,由于对抗示例直接使用面部识别模型的梯度信息,因此它高度依赖于该模型,并且对于未知识别模型而言,很难实现识别效果和图像质量。在这项研究中,我们提出了一种基于扩散模型的新型去识别方法,该方法通过对面部形状进行微小变化来对未知识别模型具有很高的概括性。使用LFW的实验表明,与使用对抗性示例的常规方法相比,该方法对未知模型具有更高的识别效果,并且图像质量更好。
已知有条件的扩散模型对数据分布具有良好的覆盖范围,但它们仍然面临输出多样性的限制,尤其是在使用无分类器的无分类引导量表进行采样以实现最佳图像质量或在小型数据集中进行培训时。我们将这个问题归因于调节信号在推理中的作用,并为扩散模型提供了改进的采样策略,这些模型可以增加产生多样性,尤其是在高导度量表下,而采样质量的损失最小。我们的抽样策略通过在推断期间将高斯噪声添加到调节矢量中,以平衡多样性和条件比对,从而使调节信号降低了调节信号。我们的条件 - 退火扩散采样器(CADS)可以与任何验证的模型和采样算法一起使用,我们表明它可以提高各种条件生成任务中扩散模型的多样性。此外,使用现有的预处理扩散模型,CADS分别以256×256和512×512的形式获得了新的最先进的FID和2.31。
基于形状描述符和几何注册的传统方法通常会在模棱两可的特征上遇到较低的精度。最近的数据驱动方法固有地受到训练模型的表示和学习能力的影响。为了解决这个问题,我们提出了一种受扩散模型和变压器启发的新颖方法。我们的方法利用了它们的全局特征相关性和姿势先前的学习能力,将通过变压器通过变压器进行扩散来预测每个片段的姿势参数。我们在断裂的对象数据集上评估我们的方法,并与最新方法相比表现出卓越的性能。我们的方法提供了一种有前途的解决方案,可用于重新组装准确,稳健的裂缝对象,以复杂的形状分析和组装任务来推进该领域。
摘要。开放式摄取分段是分割图像中可以命名的任何事物的任务。最近,大规模的视觉建模导致了开放式摄影片段的重大进展,但付出了巨大的成本,并增加了培训和注释工作。因此,我们询问是否可以使用现有的基础模型来合成特定类别集的按需有效分段算法,从而使其适用于开放式摄影库设置,而无需收集进一步的数据,注释或执行培训。为此,我们提出了Ovdiff,这是一种新颖的方法,它利用生成的文本对图像扩散模型来进行无监督的开放式摄影症。ovdiff合成支持任意文本类别的图像集,为每个类别及其周围环境(背景)创建一组原型。它仅依赖于预先训练的组件,并直接输出合成的分段,而无需训练。我们的方法在一系列基准上显示出很强的性能,在Pascal VOC上的先前工作中获得了超过5%的铅。
所提出的StableVSR建立在单个图像超分辨率(SISR)的预训练潜在扩散模型(LDM)上。我们使用稳定的扩散×4上放大器(SD×4 Upscaler)4。它遵循LDM框架[14],该框架将迭代精炼过程执行到潜在空间中,并使用VAE解码器D [7]将潜伏期解码为RGB图像。从低分辨率的RGB图像LR(条件图像)和初始嘈杂的潜在X t开始,使用denoising Unet ϵθ用于通过迭代改进过程生成高分辨率对应物。在此过程中,从LR引导的X t逐渐消除了噪声。在定义数量的采样步骤之后,使用VAE解码器D [7]将获得的潜在X 0解码为高分辨率的RGB图像HR。所获得的图像HR的分辨率比低分辨率图像LR高的分辨率高,因为D执行×4升级。实际上,低分辨率的RGB图像LR和初始噪声潜在X t沿通道尺寸加入并输入到denoising unet中。