扩散模型通过学习扭转扩散过程来将噪声转换为新的数据实例,已成为当代生成建模的基石。在这项工作中,我们在离散时间内开发了基于流行的基于扩散的采样器(即概率流ode Sampler)的非反应收敛理论,假设访问(Stein)得分函数的ℓ2-2-准确估计值。对于R d中的分布,我们证明D/ε迭代(模拟一些对数和低阶项)足以将目标分布近似于ε总变化距离。这是为概率流ode采样器建立几乎线性维依赖性的第一个结果。仅对目标数据分布的最小假设(例如,没有施加平滑度假设),我们的结果还表征了ℓ2分数估计误差如何影响数据生成过程的质量。与先前的作品相反,我们的理论是基于基本而多功能的非反应方法而开发的,而无需求助于SDE和ODE工具箱。
计算机视觉技术在自动驾驶汽车的感知堆栈中起着核心作用。使用此类方法来感知给定数据的车辆周围环境。3D激光雷达传感器通常用于从场景中收集稀疏的3D点云。然而,根据人类的看法,这种系统努力鉴于那些稀疏的点云,因此很难塑造现场的看不见的部分。在此问题中,场景完成任务旨在预测LiDAR测量中的差距,以实现更完整的场景表示。鉴于最近扩散模型作为图像的生成模型的有希望的结果,我们建议将其扩展以实现单个3D LIDAR扫描的场景。以前的作品使用了从LiDAR数据提取的范围图像上使用扩散模型,直接应用了基于图像的扩散方法。差不多,我们建议直接在这些点上操作,并介绍尖锐的和降解的扩散过程,以便它可以在场景规模上有效地工作。与我们的方法一起,我们提出了正规化损失,以稳定在denoising过程中预测的噪声。我们的实验评估表明,我们的方法可以在单个LIDAR扫描中完成场景,作为输入,与最新场景完成方法相比,产生了更多详细信息的场景。我们认为,我们提出的扩散过程公式可以支持应用于场景尺度点云数据的扩散模型中的进一步研究。1
由于气候变化,热带气旋变得更加激烈,与基于数学模型的传统方法相比,基于AL的建模的崛起提供了一种更实惠和更容易获得的方法。这项工作通过整合卫星成像,遥感和大气数据来利用生成扩散模型来预测旋风轨迹和降水模式。它采用了一种级联的方法,该方法包含三个主要任务:预测,超分辨率和降水建模。培训数据集包括2019年1月至2023年3月的六个主要热带气旋盆地的51个旋风。实验表明,来自级联模型的最终预测显示,对于所有三个任务,分别超过0.5和20 dB的良好结构相似性(SSIM)和峰值信号 - 噪声比(PSNR)值(SSIM)和峰值信号 - 噪声比(PSNR)值分别具有出色的结构相似性(SSIM)。可以在单个NVIDIA A30/RTX 2080 Ti的30分钟内生成36小时的预测。这项工作还强调了AL方法的有希望的效率,例如在天气预报中为高性能需求的扩散模型,例如热带气旋预测,同时保持计算负担得起,使其非常适合具有关键预测需求和财务限制的高度脆弱区域。代码可在https://github.com/nathzi1505/forecast-diffmodels上访问。
摘要分散模型(DMS)的最新发展使得能够产生惊人的高质量合成样品。最近的工作表明,差异模型产生的合成样本已在公共数据上进行了预培训,并在私人数据上完全构成了差异性隐私,可以培训下游的分类器,同时实现良好的隐私公用事业 - 公用事业贸易。然而,就记忆使用和计算而言,具有DP-SGD的如此大的分解模型完全需要资源。在这项工作中,我们使用具有不同隐私性的低维适应性(LODA)进行了划分模型的参数 - 有效的微调(PEFT)。我们使用MNIST和CIFAR-10数据集评估了所提出的方法,并证明这种有效的功能还可以为训练下游分类器培训有用的合成样品,并保证了隐私保护数据。我们的源代码将在GitHub上提供。
摘要:在追求使用人工智力的发展表达音乐性能模型时,本文介绍了Dexter,Dexter是一种利用扩散概率模型来实现西方古典钢琴表演的新方法。性能渲染任务中面临的主要挑战是随着时间的推移表达时机和动态的连续和顺序建模,这对于捕捉表征现场音乐表演的不断发展的细微差别至关重要。在这种方法中,性能参数在连续的表达空间中表示,并且训练了扩散模型,以预测这些连续参数,同时以乐谱为条件。此外,Dexter还可以通过共同以分数和感知性表征来指导,以感知有意义的特征引导的解释(表达性变化)。因此,我们发现我们的模型对于学习表达性能,产生感知转向的表演以及转移性能样式很有用。我们通过定量和定性分析来评估模型,重点介绍有关诸如异步和发音等维度的特定绩效指标,以及通过将产生的性能与不同人类解释进行比较的听力测试。结果表明,Dexter能够捕获表达性pa-Rameters的随时间变化的相关性,并且与主观评估的评分中的现有渲染模型进行了很好的比较。通过预测不同转向性能的感知特征的代理模型,通过委托模型来验证dexter的感知功能的生成和传递能力。
最近的生成方法显示出有希望的盲人恢复性能。他们通常将退化的图像投射到潜在空间,然后通过单阶段潜在优化或直接从启动编码来解码高质量的面孔。对投入的信仰产生细粒度的面部细节仍然具有挑战性。大多数现有的方法产生过度平滑的输出或改变身份。这可能归因于潜在空间中质量和分辨率之间的典型权衡。如果潜在的压缩高度压缩,则解码的输出对降解更为强大,但忠诚度较差。另一方面,更灵活的潜在空间可以更好地捕获错综复杂的偏僻,但是对于高度退化的面孔来说,极其难以优化。我们在VQGAN体系结构中引入了基于扩散的优势,该基于未腐烂的潜在嵌入的分布而引起了研究。我们迭代地恢复了降解的柜台上的清洁嵌入条件。此外,为了确保反向扩散轨迹不会偏离潜在的身份,我们训练一个单独的身份恢复网络,并使用其输出来限制反向差异。具体来说,使用可学习的潜在面膜,我们将面部识别网络的梯度添加到一个潜在特征的子集中,这些特征与像素空间中与身份相关的细节相关联,使其他功能未触及。在潜在空间中的感知和忠诚之间的分离使我们能够达到两全其美。我们对多个真实和合成数据集进行了广泛的评估,以验证我们的方法。
摘要。我们提出了4DIFF,这是一个解决Exo-to-ego视图转换任务的3D引起的扩散模型 - 从相应的第三人称(Exentric)图像中生成第一人称(Ego-go-Imentric)查看图像。建立扩散模型生成光地式图像的能力,我们提出了一个基于变压器的扩散模型,该模型通过两种机制对几何学进行了评分:(i)Egocentric Point Cloud Rasterization和(II)3D意识到的旋转旋转交叉注意。以中心的点云栅格化将输入外向图像转换为以自我为中心的布局,后者随后被扩散图像变压器使用。作为扩散变压器的DeNoiser块的组成部分,3D感知的旋转跨注意事件进一步结合了从源exentric视图中的3D信息和半出现特征。我们的4DIFF在挑战性和多样化的自我exo4d多视图数据集上实现了状态的结果,并展示了对训练期间未遇到的新型环境的强大概括。我们的代码,处理过的数据和预处理的模型可在https://klauscc.github.io/4diff上公开获取。
摘要。在计算机视觉中,众所周知,缺乏数据会损害模型性能。在这项研究中,我们应对加强数据集多样性问题的挑战,以使各种下游任务(例如对象检测和实例segmentation)受益。我们通过利用生成模型中的进步,特别是文本对图像合成技术(如稳定扩散)提出了一种简单而有效的数据增强方法。我们的方法着重于标记的真实图像的变化,利用生成对象和背景增强通过indpainting来增强现有的培训数据,而无需其他注释。我们发现,尤其是背景增强,显着提高了模型的鲁棒性和泛化能力。我们还调查了如何提示和掩盖以确保生成的内容符合现有注释。通过对可可数据集的全面评估和其他几个关键对象检测基准测试,我们的增强技术的功效得到了验证,这表明在不同情况下,模型性能没有提高。这种方法为数据集启用的挑战提供了有希望的解决方案,这有助于开发更准确,更健壮的计算机视觉模型。
摘要。我们提出了扩散汤,这是一种用于文本到图像生成的隔室化方法,该方法平均训练了在碎片数据上训练的扩散模型的权重。通过施工,我们的方法可以培训 - 免费的持续学习和学习,而没有其他内存或inctionce成本,因为可以通过重新体验来添加或删除与数据碎片相对应的模型。我们表明,从重量空间中的一个散布汤样品近似于组成数据集的分离的几何平均值,该数据集提供了抗MONTORIGATION GUARESES,并启用了零拍的样式混合。从经验上讲,扩散汤优于在所有数据碎片的结合下训练的帕拉贡模型,并在域分片数据上取得了30%的图像奖励(.34→.44),而IR的IR(.37→.59)在摄取数据上提高了59%。在这两种情况下,汤也以TIFA得分占上风(分别为85.5→86.5和85.6→86.8)。我们证明了鲁棒性的学习 - 在IR(.45→.44)中,任何单个域shorn仅降低了1%的性能 - 并验证我们对抗Memorization的实际数据的理论见解。最后,我们展示了扩散汤的能力,可以将不同碎片上固定的模型的独特样式融合在一起,从而导致零发的混合风格产生。