理解人类行为是AI和机器人界的长期挑战,涉及对复杂,依赖上下文的行动和意图的理解。在社会互动的背景下,个人的运动反映了他们的行为和意图。作为人类,我们预测了短期未来的未来运动和状态,以优化流利的相互作用。但是,将这种行为转移到机器人仍然是一个挑战。本项目设想适当的HRI生成强大的机器人行为。尤其是,学生将通过利用在人类运动产生中观察到的高端质量(DDPM)中观察到的高端质量来扩展我们以前的工作[1]中的确定性机器人行为[1] [2]。仍然,为了克服由于经常性降解步骤而导致的DDPM的缓慢推理速度,学生将探索使用一致性模型(CM)进行实时推理[3]。最终目标是生成HRI行为,通过关注机器人行为,多样性和鲁棒性对现实世界的闭合的忠诚度,与人类相互作用非常相似。鉴于最终目标是在实际情况下对其进行测试,因此学生将在培训期间采用合成的遮挡策略,以使模型对现实世界中可能发生的错误姿势估计进行健全。
医学图像分割是一项具有挑战性的任务,许多数据集的大小和注释有限,这使其变得更加困难。去噪扩散概率模型 (DDPM) 最近在对自然图像分布进行建模方面显示出良好的前景,并成功应用于各种医学成像任务。这项工作重点关注使用扩散模型的半监督图像分割,特别是解决领域泛化问题。首先,我们证明较小的扩散步骤生成的潜在表示对于下游任务比较大的步骤更稳健。其次,我们利用这一见解提出了一种改进的集成方案,该方案利用信息密集的小步骤和较大步骤的正则化效应来生成预测。我们的模型在域转换设置中表现出明显更好的性能,同时在域内保持了有竞争力的性能。总的来说,这项工作突出了 DDPM 在半监督医学图像分割中的潜力,并提供了在域转换下优化其性能的见解。关键词:医学图像分割,半监督学习,生成模型
摘要 - 同时进行多层(SMS)成像是加速磁共振成像(MRI)采集的强大技术。但是,由于激发切片之间和内部的复杂信号相互作用,SMS重建仍然具有挑战性。这项研究提出了使用深处先验的强大的SMS MRI重建方法。从高斯噪声开始,我们利用扩散概率模型(DDPM)的脱糖性,通过反向扩散迭代逐步恢复单个切片,同时从读取串联框架下的MEA k-Space施加数据一致性。设计后采样过程使DDPM训练可以在单板图像上执行,而无需对SMS任务进行特殊调整。此外,我们的方法集成了低频增强(LFE)模块,以解决一个实用问题,即SMS加速快速自旋Echo(FSE)和回声平面成像(EPI)semitions无法轻易嵌入自动启动信号。的实验实验表明,我们的方法一致地超过了现有方法,并且可以很好地概括到看不见的数据集。该代码可从https://github.com/solor-pikachu/roger获得评论Pro-Cess之后。
多模式图像融合旨在结合不同的模态,以产生保留每种模式的合并特征的融合图像,例如功能亮点和纹理细节。为了利用强大的先验,并应对基于GAN的生成方法的不稳定培训和缺乏解释性等挑战,我们提出了一种基于脱氧扩散概率模型(DDPM)的新型融合算法。在DDPM采样框架下,融合任务是作为条件生成概率提出的,该框架被划分为无条件生成子问题和最大似然子问题。后者以层次的贝叶斯方式进行了模拟,并以潜在变量为单位,并通过期望最大化(EM)算法来推断。通过将推理解决方案集成到扩散采样迭代中,我们的方法可以从源图像中生成具有自然图像生成先验的高质量融合图像,并从源图像中产生交叉模式信息。请注意,我们所需的只是无条件的预训练的生成模型,不需要微调。我们的广泛实验表明,我们的方法产生了有希望的融合会导致红外可见的图像融合和医学图像融合。该代码可在https:// github上找到。com/zhaozixiang1228/mmif-ddfm。
正则化是全波形倒置(FWI)的重要方面,正规化提出的现实事先可以帮助降低逆问题的非线性和不良性。最近,生成扩散模型在学习数据分配方面表现出了出色的性能,使其成为反问题的理想事务。我们建议利用特定的扩散模型,即denoising扩散概率模型(DDPM),以制定FWI的重态化。分数蒸馏技术被设置为绕过神经网络的Ja-Cobian的计算,从而导致正规化项的强大而有效的实现。使用Marmousi模型的初始示例证明了所提出的方法的有效性。
为了人类的运气,与小型太阳能相比,太阳能较小。即使这些是个好消息,这也使训练能够建模太阳能活动的机器学习算法具有挑战性。因此,太阳能监视应用程序(包括量)是预测的,因此由于缺乏输入数据而征服。为了克服这个问题,可以利用生成深度学习模型来产生代表太阳活动的合成图像,从而补偿大事件的稀有性。本研究旨在开发一种可以生成太阳的合成图像,具有特定强度的能力。为了实现我们的目标,我们引入了一个脱氧概率模型(DDPM)。我们用SDO航天器上大气图像组件(AIA)仪器进行了精心制作的数据集训练它,该仪器特别是171Å带,该乐队捕获了冠状环,纤维,纤维,浮雕和活动区域的图像。使用Heliophysics事件知识库选择了来自AIA的浮动图像后,采用X射线测量来基于太阳量(a,b,c,m,x)对每个图像进行分类,从而允许对漏水事件进行时间定位。使用群集指标,FRéchetInception距离(FID)和F1分数评估生成模型性能。我们演示了最新的结果,可以产生太阳图像并进行两个使用合成图像的实验。第一个实验训练有监督的分类器以识别这些事件。第二个实验训练基本太阳能是预测指标。我们认为,这只是DDPM与太阳能数据使用的开始。实验证明了其他合成样本对解决不平衡数据集问题的有效性。仍然可以更好地了解太阳能竞赛中的DINOISING DI遇到的概率模型的发电能力是预测,并将其应用于其他深度学习和物理任务,例如AIA到HMI()图像翻译。
无条件产生,该算法没有输入;该模型生成一个新的图像,该图像与培训数据共享特征。相比之下,随着统一的生成,该算法的输入是有效的类选择。例如,在MNIST数据集中,我们可以指示该模型生成数字的图像在0到9之间,从而从指定类中产生新的图像。在DDPM框架内,U-NET充当神经网络,以预测每个时间步处的噪声。对U-NET的输入是时间t的图像,时间嵌入和上下文嵌入。U-NET输出ϵ具有与输入图像相同的输入图像特征维度。this ϵ表示要从t处的库图像中减去的估计噪声,以在t-1处产生图像,从而使其更接近新图像。
有两种主要的扩散模型方法:降解扩散概率模型(DDPMS)(Sohl- Dickstein等,2015; Ho等,2020)和基于得分的生成模型(Song&Ermon,2019)(SGMS)(SGMS)。以前的DDPM逐渐通过向前过程将样品从目标分布转换为噪声,并训练向后的过程逆转转换并用于生成新样品。另一方面,SGM使用得分匹配技术(Hyvärinen&Dayan,2005; Vincent,2011)来学习数据生成分布的得分函数的近似,然后使用Langevin Dynamics生成新样本。由于对于现实世界的分布,得分功能可能不存在,Song&Ermon(2019)建议在训练样本中添加不同的噪声水平以覆盖整个实例空间,并训练神经网络以同时学习所有噪声水平的得分函数。
扩散模型(DM)已成为最先进的模型,因为它们在没有对抗性训练的情况下从噪音中产生高质量图像的能力。但是,正如最近的研究报道的那样,它们容易受到后门攻击的影响。数据输入(例如,一些高斯噪声)用扳机盖章(例如,一个白色补丁),后do的模型始终生成目标图像(例如,一张不正确的照片)。但是,从DMS中减轻后门的有效防御策略没有充满反感。为了弥合这一差距,我们提出了第一个DMS的后门检测和重新移动框架。我们在包括DDPM,NCSN和LDM在内的数百多种DM上评估了我们的框架E Li -Jah,并使用13个采样器对3个现有的后门攻击进行了评估。广泛的实验表明,我们的方法可以接近100%的检测准确性,并将后门效应降低至接近零,而无需显着牺牲模型效用。
摘要 - 自主驾驶技术的发展需要越来越复杂的方法来理解和预测现实世界的情况。视觉语言模型(VLM)正在成为革命性的工具,具有影响自主驾驶的巨大潜力。在本文中,我们提出了DriveGenVLM框架来生成驾驶视频并使用VLM来理解它们。为了实现这一目标,我们采用了一个基于降级扩散概率模型(DDPM)的视频生成框架,旨在预测现实世界的视频序列。然后,我们通过在Egintric视频(EILEV)上采用预训练的模型,探讨了我们生成的视频在VLM中使用的充分性。通过Waymo打开数据集对扩散模型进行了训练,并使用FR´Echet视频距离(FVD)得分进行了评估,以确保生成的视频的质量和现实性。EILEV为这些生成的视频提供了相应的叙述,这可能对自主驾驶领域有益。这些叙述可以增强交通现场的理解,帮助导航并提高计划功能。在DriveGenVLM框架中将视频生成与VLM的集成代表了利用先进的AI模型来解决自主驾驶中复杂挑战的重要一步。