扩散模型已成为机器学习中生成建模的重要方法。这些模型是通过模拟一些“破坏性”随机过程来训练的,这些随机过程在训练数据样本中初始化,并且具有易于采样的限制分布。通过学习如何逆转随机过程来获得生成模型。扩散模型的大多数应用都用于连续数据,并使用高斯扩散作为随机过程。但是,相同的想法也可以通过适当的破坏过程选择,例如基于离散的马尔可夫链和吸收状态的引入。通过指导进一步提高了扩散生成模型的性能和适用性,这是一种基于某些辅助信息或外部模型来指导生成过程的技术。指导既可以用于有条件生成(例如带有分类器指导)和改善样本质量(鉴别器指导)。在本演讲中,我将讨论如何将顺序的蒙特卡洛用于扩散模型的指导。我将重点放在不容易适用的基于常规得分的指导技术的离散设置上。基于与FilipEkströmKelvinius的联合工作(自回旋扩散模型的歧视指南,AISTATS 2024,https://arxiv.org/abs/2310.15817)
摘要:生成式人工智能基本上是人工智能的一个子领域。它主要侧重于开发能够生成图像、音乐、文本等创意输出的系统。通过深度学习技术,生成模型能够独立生成看起来像人类创作的内容。生成式人工智能的关键特征是它能够从庞大的数据集中学习、捕捉模式并生成具有相似特征的新内容。近年来,生成式人工智能模型如生成对抗网络 (GAN) 和变分自动编码器 (VAE)。GAN 由两部分组成:生成器网络和鉴别器网络,它们参与生成和评估内容的竞争过程。VAE 采用编码器-解码器架构来学习和生成新样本。本文讨论了生成式人工智能未来有望做出重大贡献的关键领域。这些领域包括:医疗保健、艺术和娱乐、道德和社会考虑、自主系统、内容创作等。关键词:生成式人工智能、物联网 (IoT)、生成对抗网络 (GAN)、变分自动编码器 (VAE)、深度学习
摘要 — 设计并制作了一种单芯片静电放电 (ESD) 事件检测器,用于检测和报警半导体或集成电路 (IC) 制造环境中的 ESD 事件。实验测量结果表明,ESD 事件期间检测到的信号的峰峰值电压与其 ESD 应力电压水平具有很强的相关性。如果信号幅度高于可设置阈值并且持续时间低于 500 ns,则所提出的 ESD 事件检测器可以判定检测到的信号为 ESD 脉冲。ESD 事件检测器电路包括一个 450 MHz 对数放大器、一个比较器和一个时间鉴别器,已在单芯片中实现,总硅片面积仅为 693 × 563 µ m 2,采用 0.18-µ m CMOS 工艺制作。该检测器可检测高达 450 MHz 的高频瞬态信号,已通过检测 ESD 发生器、人体模型测试器和场感应带电设备模型测试器产生的信号在现场测试中成功验证。所提出的 ESD 事件检测器可有效地在 IC 和半导体制造工厂中执行实时 ESD 监控应用。
摘要 —基于学习的方法代表了路径规划问题的最新技术水平。然而,它们的性能取决于可用于训练的医学图像的数量。生成对抗网络(GAN)是无监督神经网络,可用于合成逼真的图像,避免对原始数据的依赖。在本文中,我们提出了一种创新类型的 GAN,即深度卷积精炼自编码 Alpha GAN,它能够通过学习数据分布从随机向量成功生成 3D 脑磁共振成像 (MRI) 数据。我们将变分自编码 GAN 与代码鉴别器相结合,解决了共模崩溃问题并降低了图像模糊度。最后,我们在生成器网络中串联了一个精炼器,以平滑图像的形状并生成更逼真的样本。我们使用生成的图像与真实图像之间的定性比较来测试模型的质量。我们还利用多尺度结构相似性度量、最大平均差异和并集交集三个指标进行了定量分析。最终结果表明,我们的模型可以成为解决基于学习的方法所需的医学图像短缺问题的合适解决方案。
本文提出了一种新的带有分割混淆对抗训练(SCAT)和对比学习的图像修复对抗训练框架。SCAT 在修复生成器和分割网络之间进行对抗游戏,提供像素级局部训练信号并能适应具有自由形式孔洞的图像。通过将 SCAT 与标准全局对抗训练相结合,新的对抗训练框架同时展现出以下三个优点:(1)修复图像的全局一致性,(2)修复图像的局部精细纹理细节,以及(3)处理具有自由形式孔洞的图像的灵活性。此外,我们提出了纹理和语义对比学习损失,通过利用鉴别器的特征表示空间来稳定和改进我们的修复模型的训练,其中修复图像被拉近到真实图像但远离损坏图像。所提出的对比损失可以更好地引导修复后的图像从损坏的图像数据点移动到特征表示空间中的真实图像数据点,从而产生更逼真的完整图像。我们在两个基准数据集上进行了广泛的实验,从质量和数量上证明了我们模型的有效性和优越性。
摘要:当前的停车援助和监测系统合成鸟类视图(BEV)图像,以提高驱动程序的可见度。这些BEV图像是使用称为“逆透视图”(IPM)的流行透视转换创建的,该转换将其投射到FishEye摄像头捕获的环绕视图图像的像素上。然而,IPM在准确地表示高度和接缝的对象方面面临挑战,因为它依赖于刚性几何变换,因此将预计的环绕视图缝合在一起。为了解决这些局限性,我们提出了Bevgan,这是一种新型的几何形状引导的条件生成副本网络(CGAN)模型,将多尺度鉴别器与基于变形金刚的生成器相结合,该生成器利用Fisheye摄像机校准和注意力机械机制,以隐含地模拟该视图之间的几个几何形式的变换。实验结果表明,在图像保真度和质量方面,Bevgan的表现优于IPM和最先进的跨视图生成方法。与IPM相比,我们报告了 + 6的改进。在PSNR上的2 dB,MS-SSIM上的 + 170%在描绘停车场和驾驶场景的合成数据集上进行评估。此外,还通过零射推理证明了Bevgan在现实世界中的图像上的概括能力。
摘要:背景:由于医学图片的密度,医学图像分割比普通图像分割更复杂且要求更高。脑肿瘤是导致高死亡率的最常见原因。目的:由于肿瘤细胞和非肿瘤细胞之间的差异,肿瘤细胞的提取特别困难。在普通的卷积神经网络中,局部背景信息受到限制。因此,以前的医学成像深度学习算法一直难以检测不同细胞中的异常。方法:为了解决这一挑战,提出了一种用于从脑磁共振成像 (MRI) 图像中分割肿瘤的深度卷积生成对抗网络。生成器和鉴别器是构成所提模型的两个网络。该网络专注于肿瘤定位、噪声相关问题和社会阶层差异。结果:骰子得分系数 (DSC)、峰值信噪比 (PSNR) 和结构指数相似度 (SSIM) 分别为 0.894、62.084 dB 和 0.88912。该模型的准确率提高到 97%,损失降低到 0.012。结论:实验表明,该方法可以成功分割肿瘤和良性组织。因此,创建了一种新颖的脑肿瘤分割方法。
摘要 - 离线增强学习(RL)提供了一种有希望的方法,以避免与真实环境的昂贵在线互动。但是,离线RL的性能高度取决于数据集的质量,这可能会导致学习过程中的外推错误。在许多机器人范围内,通常可以使用不准确的模拟器。但是,由于众所周知的探索 - 剥削困境以及不准确的模拟和真实环境之间的动态差距,直接从不准确的模拟器收集的数据不能直接用于离线RL中。为了解决这些问题,我们提出了一种新颖的方法,以更好的方式将离线数据集和不准确的仿真数据组合在一起。具体来说,我们预先训练了生成对抗网络(GAN)模型,以适合离线数据集的状态分布。给出了这一点,我们从发电机提供的分布开始,从不准确的模拟器中收集数据,并使用鉴别器重新重量模拟数据。我们在D4RL基准测试中的实验结果和现实世界中的操纵任务确认,我们的方法可以从不准确的模拟器和有限的离线数据集中受益更多,以比先进的方法获得更好的性能。
印度摘要 - 随着数字内容产生的增加,深层假图像已成为日益关注的问题,对隐私,安全性和信誉构成威胁。本文介绍了基于生成对抗网络(GAN)的深假伪造图检测工具的研究,该工具的目的是将真实图像与合成生成的图像区分开。通过利用深度学习,特别是GAN框架的歧视者,该系统确定了深层假图像中的不一致之处,为在媒体验证,网络安全和法律应用等各个领域提供可靠的检测提供了可靠的检测。我们的系统采用了发电机 - 歧视器架构,在该架构中训练了鉴别器以识别发电机生成的假图像,从而提高了其发现深色伪造的Telltale迹象的能力。在真实图像和虚假图像的广泛数据集上进行了培训,该模型能够学习细微的差异并准确地标记合成内容。该工具的目标是增强操纵图像的检测,这是需要图像真实性验证的帮助扇区。关键字 - 深处伪造,深伪,对抗网络,机器学习,生成对抗网络(GAN)
摘要 — 生成对抗网络 (GAN) 在语音处理等领域的时间序列数据生成方面取得了重要进展。GAN 的这种能力对于脑机接口 (BCI) 非常有用,因为收集大量样本可能既昂贵又耗时。为了解决这个问题,本文提出了一种为运动想象生成人工脑电图 (EEG) 数据的新方法。这里的 GAN 使用由双向长短期记忆神经元组成的生成器和鉴别器网络。使用来自 BCI 竞赛 IV 的数据集 2b 评估训练后的模型。该数据集包括左手和右手运动想象的试验。训练单独的 GAN 以生成与数据集中存在的两种试验类型相对应的人工 EEG 样本。为了进行评估,使用短期傅里叶变换和 Welch 功率谱密度比较真实和人工 EEG 信号的时频特性。结果表明,GAN 可以捕捉运动想象脑电图数据的重要特征,例如 beta 波段的功率变化。从 Welch 的功率谱密度来看,人工生成信号和原始信号的功率变化处于相似的频率区间。