扩散模型(DM)已成为最先进的模型,因为它们在没有对抗性训练的情况下从噪音中产生高质量图像的能力。但是,正如最近的研究报道的那样,它们容易受到后门攻击的影响。数据输入(例如,一些高斯噪声)用扳机盖章(例如,一个白色补丁),后do的模型始终生成目标图像(例如,一张不正确的照片)。但是,从DMS中减轻后门的有效防御策略没有充满反感。为了弥合这一差距,我们提出了第一个DMS的后门检测和重新移动框架。我们在包括DDPM,NCSN和LDM在内的数百多种DM上评估了我们的框架E Li -Jah,并使用13个采样器对3个现有的后门攻击进行了评估。广泛的实验表明,我们的方法可以接近100%的检测准确性,并将后门效应降低至接近零,而无需显着牺牲模型效用。
摘要 - 我们探讨了中间政策代表如何通过提供如何执行操纵任务的指导来促进概括。现有的表示,例如语言,目标图像和轨迹草图很有帮助,但是这些表示不提供足够的上下文,或提供过多指定的上下文,从而产生较少可靠的策略。我们提出了有关承受能力的条件政策,该政策在任务的关键阶段捕获了机器人的姿势。负担能力提供表达且轻巧的抽象,易于用户指定,并通过从大型互联网数据集中传输知识来促进有效的学习。我们的方法,RT-Fordance是一个层次结构模型,它首先提出了鉴于任务语言的负担计划,然后根据该负担能力计划的政策对执行操纵的计划进行了调节。我们的模型可以灵活地桥接异质的监督来源,包括大型Web数据集和机器人轨迹。我们还在廉价收集内域的负担能力图像上训练模型,使我们能够学习新任务,而无需收集任何其他昂贵的机器人轨迹。我们显示了一系列新颖的任务,RT额外的效果如何超过50%的现有方法的性能,并且我们从经验上证明,负担能力对新型设置是可靠的。视频可从https:// snasiriany提供。me/rt-fordance
在3D医学图像中对感兴趣的器官进行分割是准确诊断和纵向研究的必要条件。尽管使用深度学习的最新进展已显示出许多细分任务的成功,但是高性能需要大的数据集,而注释过程既耗时又耗时。在本文中,我们提出了一个3D少数射击分割框架,以使用目标器官注释的有限训练样本进行准确的器官序列。为了实现这一目标,像U-NET一样的网络旨在通过了解支持数据的2D片与查询图像之间的关系,包括辅助门控复发单元(GRU),该单元(GRU)了解相邻切片之间编码特征的一致性。此外,我们会介绍一种传输学习方法,以通过在支持数据中采样的任意支持和查询数据进行测试之前对模型进行更新,以适应目标图像和器官的特征。我们使用带有不同器官注释的三个3D CT数据集评估了我们提出的模型。我们的模型比最先进的射击分段模型产生了显着提高的性能,并且与经过更多目标培训数据训练的完全监督模型相当。
摘要:体现的AI正在逐步探索大型语言模型(LLMS),以进行机器人技术的有效计划。体现AI的最新进展使LLMS能够将视觉观察和高级目标提示解析为可执行子任务。但是,这些现有方法通常完全基于环境的初始状态执行计划,从而导致生成更长的计划时的基础弱化。通过以语言的形式纳入环境反馈来结合循环的一些最新指示。与这些方法不同,我们介绍了计划扩散器,这是一种新颖的“闭环”方法,用于逐步计划,并在循环的每个步骤中进行视觉反馈伴奏。具体来说,我们的方法自动加入采用LLM来生成单步文本子目标和扩散模型,以将其转化为可视觉子目标,用于后续计划。最后,一个能够实现这些亚目标图像的目标政策将其执行。对Ravens基准套件的全面评估表明,计划扩散器超过了最先进的方法,尤其是在长期任务中。此外,我们的方法在分发场景中证明了强大的概括性 - 可轻松处理看不见的颜色,对象和增加任务复杂性。
摘要 - 本文介绍了Clipswap,这是一种专为高保真面部交换而设计的新框架。面部交换的早期方法通常是由于目标和源图像之间属性的不匹配而在身份转移中挣扎。要处理这个问题,我们的工作中提出了一种属性 - 意识到的面部交换方法。我们使用有条件的生成对抗网络和基于剪辑的编码器,该网络提取丰富的语义知识以实现属性 - 意识到的面部交换。我们的框架使用面部交换过程中的剪辑嵌入,通过完善从源图像获得的高级语义属性,将源图像的身份详细信息传输到交换图像中。和源图像用作剪辑的输入参考图像,并确保最终结果中更准确,更详细的身份表示形式。此外,我们采用对比度损失来指导源面部属性从各种视点转换到交换图像上。我们还引入了属性保存损失,这会惩罚网络以保持目标图像的面部属性。多PLE数据集上的彻底定量和定性评估说明了高质量交换结果。我们提出的剪贴画在面部交换中优于先前的最新方法(SOTA)方法,尤其是在身份转移和面部属性特征方面。
摘要 - 人类通过专注于与导航相关的特定视觉区域,在没有碰撞的情况下有效地通过人群导航。但是,大多数机器人视觉导航方法都依赖于对视觉任务进行预训练的深度学习模型,这些模型优先考虑显着对象,而不一定与导航和潜在的误导有关。替代方法从头开始训练专业导航模型,需要大量计算。另一方面,自我监督的学习彻底改变了计算机视觉和自然语言处理,但是由于难以定义有效的自学信号,因此其在机器人导航中的应用仍未被忽略。是由这些观察结果激励的,在这项工作中,我们为视觉导航预训练(VANP)提出了一种自我监督的视觉动作模型。而不是检测对分类或检测等任务有益的显着对象,而是学会仅专注于与导航任务相关的特定视觉区域。为了实现这一目标,VANP使用了视觉观察的历史记录,未来的动作和一个自upervision的目标图像,并使用两个小型变压器编码器嵌入它们。然后,通过使用共同信息最大化目标函数,VANP最大化嵌入之间的信息。我们证明了大多数VANP提取的功能与人类导航直觉匹配。vanp的性能可相当,因为模型学习了端到端的一半训练时间和在大规模,完全监督的数据集(即Imagenet)上进行培训的模型,只有0.08%的数据。1
摘要 - 地球观察卫星可以在不同的时间,气候条件和平台形式下捕获光学图像,在颜色和亮度上表现出很大的差异,在合成大面积光学卫星图像时会导致视觉体验差。相关的颜色平衡问题引起了研究人员的极大关注,但诸如缺乏研究数据和对模型参数的敏感性之类的挑战持续存在。为了解决这些问题,本文发布了一个公开开放的数据集,并提出了语义细分增强色彩平衡网络(SECBNET)。首先,为了减轻研究数据的稀缺性,我们开发了一个公共可用的遥感图像颜色平衡数据集,Zhu hai色彩平衡图像(ZHCBI),以支持相关的研究活动。第二,为了提高颜色平衡图像和目标图像之间的语义一致性,我们设计了以分割结果为指导的双分支U-NET架构,并提出了一种新颖的分割特征损失函数。最后,为了解决分段处理中块之间的接缝问题和不自然的过渡,我们引入了一个基于加权平均的后处理模块。我们对ZHCBI数据集上的现有主流颜色平衡算法进行了比较实验和分析。结果表明,与其他主流方法相比,我们所提出的方法可实现最先进的颜色平衡质量,并具有显着改善的视觉效果和更高的峰信噪比(PSNR)(23.64 dB)。
最近,几种方法探索了多对比磁共振成像(MRI)超分辨率(SR)的潜力,并获得了优于单对比SR方法的结果。但是,现有方法仍然存在两个缺点:(1)它们只能解决固定的Inter Intermpling量表,例如2×,3×和4倍,它们需要培训并存储临床上每个UPSMPLAING SCALE的相应模型。(2)他们在采用方形窗口(例如8×8)变形金刚网络档案时缺乏直接交互,这导致长范围依赖性的建模不足。此外,参考图像和目标图像之间的关系尚未完全挖掘。为了解决这些问题,我们开发了一个新颖的网络,用于多对比度MRI任意规模的SR,被称为McASSR。具体来说,我们设计了矩形窗口交叉注意变压器,以在MR图像中建立长期依赖性,而无需增加计算复杂性并完全使用参考信息。此外,我们提出了参考吸引的隐式关注,作为提升的模式,通过隐式神经表示实现了任意规模的超分辨率,进一步融合了参考图像的补充信息。在公共和临床数据集上进行了广泛而全面的实验表明,我们的MCASSR比SOTA方法产生了卓越的性能,这表明其在临床实践中的巨大潜力。代码将在https://github.com/guangyuankk/mcassr上找到。
摘要 面部认知在社交互动中起着重要作用。研究面部认知机制的典型刺激是快速连续视觉呈现 (RSVP)。在 RSVP 任务中,当一个人识别目标图像时,会引发称为事件相关电位 (ERP) 的大脑反应。需要多次试验才能平均并获得干净的 ERP,以解释 ERP 反应背后的认知机制。然而,增加试验次数会导致疲劳并影响诱发的 ERP 幅度。本文采用了不同的视角;机器学习可能会提取有意义的认知结果,揭示面部认知机制,而无需直接关注 ERP 的特性。我们实施了 xDAWN 协方差矩阵方法来提高数据质量,并实施了支持向量机分类模型,以使用部分面部认知任务中诱发的 ERP 成分来预测参与者感兴趣的事件。我们还研究了面部成分和身体反应的影响,以探索每个成分的作用并找到减少实验期间疲劳的可能性。我们发现眼睛是最有效的成分。无论是在行为反应还是分类表现方面,完整面部和部分可见眼睛的面部都获得了类似的统计结果。从这些结果来看,眼睛成分可能是面部认知中最重要的。因此,完整面部和部分可见眼睛的面部认知机制可能存在一些相似之处,应利用 ERP 特征进一步研究。
摘要 — 众所周知,MRI 数据集中的扫描仪间和协议间差异会导致显著的量化差异。因此,图像到图像或扫描仪到扫描仪的转换是医学图像分析领域的一个重要前沿,具有许多潜在的应用。尽管如此,现有算法中很大一部分无法明确利用和保留目标扫描仪的纹理细节,并且针对专门的任务特定架构提供单独的解决方案。在本文中,我们设计了一种多尺度纹理传输,以丰富重建图像的更多细节。具体而言,在计算纹理相似性后,多尺度纹理可以自适应地将纹理信息从目标图像或参考图像传输到恢复图像。与以前的算法所做的像素级匹配空间不同,我们在神经空间中实现的多尺度方案中匹配纹理特征。匹配机制可以利用多尺度神经传输,鼓励模型从目标或参考图像中掌握更多与语义相关和与病变相关的先验。我们在三个不同的任务上评估了我们的多尺度纹理 GAN,无需任何特定于任务的修改:跨协议超分辨率扩散 MRI、T1-Flair 和 Flair-T2 模态转换。我们的多纹理 GAN 可恢复更高分辨率的结构(即边缘和解剖结构)、纹理(即对比度和像素强度)和病变信息(即肿瘤)。广泛的定量和定性实验表明,我们的方法在跨协议或跨扫描仪转换方面取得了优于最新方法的结果。