摘要 - 本文介绍了Clipswap,这是一种专为高保真面部交换而设计的新框架。面部交换的早期方法通常是由于目标和源图像之间属性的不匹配而在身份转移中挣扎。要处理这个问题,我们的工作中提出了一种属性 - 意识到的面部交换方法。我们使用有条件的生成对抗网络和基于剪辑的编码器,该网络提取丰富的语义知识以实现属性 - 意识到的面部交换。我们的框架使用面部交换过程中的剪辑嵌入,通过完善从源图像获得的高级语义属性,将源图像的身份详细信息传输到交换图像中。和源图像用作剪辑的输入参考图像,并确保最终结果中更准确,更详细的身份表示形式。此外,我们采用对比度损失来指导源面部属性从各种视点转换到交换图像上。我们还引入了属性保存损失,这会惩罚网络以保持目标图像的面部属性。多PLE数据集上的彻底定量和定性评估说明了高质量交换结果。我们提出的剪贴画在面部交换中优于先前的最新方法(SOTA)方法,尤其是在身份转移和面部属性特征方面。
扩散概率模型 (DPM) 近期成为计算机视觉领域最热门的话题之一。其图像生成应用(如 Imagen、潜在扩散模型和稳定扩散)已展示出令人印象深刻的生成能力,引发了社区的广泛讨论。此外,许多近期研究发现 DPM 可用于多种其他视觉任务,包括图像去模糊、超分辨率和异常检测。受 DPM 成功的启发,我们提出了 MedSegDiff,这是第一个基于 DPM 的用于一般医学图像分割任务的模型。为了增强用于医学图像分割的 DPM 中的逐步区域注意力,我们提出了动态条件编码,它为每个采样步骤建立状态自适应条件。此外,我们提出了特征频率解析器 (FF-Parser) 来消除此过程中高频噪声成分的负面影响。我们在三种不同图像模态的医学分割任务上验证了 MedSegDiff 的有效性,包括眼底图像上的视杯分割、MRI 图像上的脑肿瘤分割和超声图像上的甲状腺结节分割。我们的实验结果表明,MedSegDiff 的表现比最先进的 (SOTA) 方法有相当大的性能差距,证明了所提模型的泛化和有效性。关键词:扩散概率模型、医学图像分割、脑肿瘤、视杯、甲状腺结节
增量学习(IL)在视觉和自然语言处理(NLP)社区中一直是一个长期存在的问题。近年来,随着预先训练的语言模型(PLM)在各种NLP下游任务中取得了显着的进步,将PLM作为骨架作为骨架已成为NLP IL最近研究的普遍做法。大多数人认为灾难性遗忘是实现IL绩效的最大障碍,并提出了各种技术来克服这一问题。但是,我们发现这个假设是有问题的。具体来说,我们在四个分类任务(文本分类,意图分类,关系提取和命名实体识别)上进行了20多种方法,但可以在两个最受欢迎的IL设置(类增量和任务提名)中,并揭示其中大多数人严重低估了PLMS固有的反遗产能力。基于观察结果,我们提出了一种令人沮丧的简单方法,称为seq* for plms。结果表明,与ART(SOTA)IL方法相比,SEQ*具有竞争性或卓越的性能,但需要训练参数和培训时间明显较少。这些发现敦促我们用PLM重新审视IL,并鼓励未来的研究对PLM中的大型遗忘有根本的了解。数据,代码和脚本可公开可用1。
摘要 - 激光雷达技术的最新进展为机器人导航提供了新的可能性。鉴于在机器人运动计划中广泛使用占用网格图(OGM),本文旨在应对将激光雷达与OGMS相结合的挑战。为此,我们提出了ROG-MAP,这是一种基于网格的OGM,它可以维护与机器人一起移动的本地地图,以实现有效的地图操作,并降低大型自动式自动驾驶的内存成本。此外,我们提出了一种新型的增量障碍物方法,该方法显着降低了诊断的计算成本。所提出的方法优于各种公共数据集上的最先进方法(SOTA)方法。为了证明ROG-MAP的有效性和效率,我们将其集成到一个完整的四极管系统中,并对小型障碍和大型场景进行自主行动。在现实世界中以0进行测试。05 m分辨率本地地图和30 m×30 m×6 m本地地图大小,ROG-MAP仅占29。平均以50 Hz的帧速率更新地图的8%(i。e。,5。在20毫秒内96毫秒),包括0。33%(即0。66 ms)要执行障碍障碍,表现出杰出的现实世界表现。我们将ROG-MAP作为开源ROS套件1发布,以促进基于激光雷达的运动计划的开发。
未来海军能力(FNC) I. 引言 本公告介绍了动能武器推进和机身技术方面的先进能力整合研究与开发。该项目名为“先进能力海上效应器 (ACME) 未来海军能力 (FNC)”,编号为 N0001425SB001,是海军和海军陆战队科学技术长期广泛机构公告 (BAA),可在 https://www.onr.navy.mil/work-with-us/funding-opportunities/announcements 找到。提案的提交、评估和研究合同的签订将按照上述长期广泛机构公告中所述进行。本公告旨在引起科学界对 (1) 研究领域和 (2) 提交白皮书和完整提案的计划时间表的关注。II.主题描述 提议的主题将使最先进的 (SOTA) 机身和推进技术成熟,形成原型演示概念。该计划将研究与动能武器系统相关的技术,用于下一代低成本、高数量和远程空射 STRIKE 武器概念。ONR 正在寻求解决的科学和技术 (S&T) 问题是持续成熟和整合多项技术,包括:机身材料(石墨/芳纶复合材料/金属增材制造)、固体推进剂火箭(高负载药柱)和超音速推进系统(冲压喷气发动机)和紧凑高效弹头。目标是使这些技术充分成熟,并将它们集成到可行的原型武器系统中,以满足此 BAA 呼叫中概述的目标。
体现的智能集成了多种模态,使代理可以同时理解图像,语言和动作。但是,现有模型始终取决于其他数据集或广泛的预培训,以最大程度地提高性能,消耗丰富的培训时间和昂贵的硬件成本。为了解决这个问题,我们介绍了Robobert,这是一种与独特的培训策略相结合的新型端到端机器人操纵模型。该模型利用基于CNN的扩散策略,通过将训练过程分开不同方式来增强和稳定该模型的有效性。它还强调了数据增强的重要性,从而验证了各种技术以显着提高性能。与依赖额外数据或大型基础模型的模型不同,Robobert在仅使用语言标记的专家演示并保持相对较小的模型大小的同时,取得了竞争激烈的成功率。具体来说,Robobert在Calvin基准测试ABCD→D任务上的平均长度为4.52,设置了新的最先进(SOTA)记录。此外,在对真实机器人进行测试时,该模型表现出卓越的性能,比其他使用相同数据训练的方法获得了更高的成功率。我们建议,这些Robobert的这些概念和方法表现出广泛的多功能性和兼容性,这极大地有助于轻巧的多峰机器人模型的发展。可以在https://github.com/peterwangsicheng/robobert 1
想象一下,你是巴塞罗那医院分子遗传学部门的负责人,两天前才开始这份新工作。突然,您收到了有些令人担忧的血液检查结果,并决定去找出哪个患者进行了这些检查。他们是一名 55 岁的男子,几天前因为感到非常疲倦并且发烧了一段时间而来到医院。当医生给她做身体检查时,发现她腋下有一个肿块。这些症状让医生非常担心,他要求进行淋巴结活检、血液检查和其他影像学检查。最后,他们给了他一个诊断:淋巴瘤。并且请您帮助确定肿瘤的类型并决定哪种治疗方法最有效。您认为您可以使用 CRISPR 吗?
最近,几种方法探索了多对比磁共振成像(MRI)超分辨率(SR)的潜力,并获得了优于单对比SR方法的结果。但是,现有方法仍然存在两个缺点:(1)它们只能解决固定的Inter Intermpling量表,例如2×,3×和4倍,它们需要培训并存储临床上每个UPSMPLAING SCALE的相应模型。(2)他们在采用方形窗口(例如8×8)变形金刚网络档案时缺乏直接交互,这导致长范围依赖性的建模不足。此外,参考图像和目标图像之间的关系尚未完全挖掘。为了解决这些问题,我们开发了一个新颖的网络,用于多对比度MRI任意规模的SR,被称为McASSR。具体来说,我们设计了矩形窗口交叉注意变压器,以在MR图像中建立长期依赖性,而无需增加计算复杂性并完全使用参考信息。此外,我们提出了参考吸引的隐式关注,作为提升的模式,通过隐式神经表示实现了任意规模的超分辨率,进一步融合了参考图像的补充信息。在公共和临床数据集上进行了广泛而全面的实验表明,我们的MCASSR比SOTA方法产生了卓越的性能,这表明其在临床实践中的巨大潜力。代码将在https://github.com/guangyuankk/mcassr上找到。
摘要。计算机视觉和机器学习中的最新技术成就为工业质量控制提供了有希望的解决方案。由于自动解决方案很难在制造过程中集成,因此电池组装过程中的一种常见做法涉及对电池零件的手动调查,该电池零件既效率低下又耗时。我们将重点放在装配线中的一个具有挑战性的生产阶段,该阶段在人类检查不可行的情况下,只能在生产的后期才能检查出来的缺陷。为此,我们提出了一个原位系统,该系统通过在当前生产阶段准确识别异常来自动化质量控制过程并形成缺陷诊断。实施的系统旨在通过使用深神经网络(DNN)来监视电池组装线中的生产线并可视化电池组件中的有缺陷,并检查使用机器视觉系统收集的真实生产样品的缺陷。为了确定特定任务的光学配置,我们对各种最新的(SOTA)DNN体系结构进行了交叉评估,专门研究对象检测。此外,我们探索了复制 - 粘贴数据增强机制,以从少数有缺陷的样本中生成其他培训数据。最初使用平均平均精度(MAP)作为绩效评估的度量标准,对工业试验样本中缺陷的定位进行了验证,然后使用F-SCORE,PROCISION和RESEMES验证了有缺陷和非缺陷样本的分类作为评估指标。
时间序列建模在许多现实世界应用中都具有重要的重要性,并且已经进行了经常研究。虽然预先训练的基础模型在自然语言处理(NLP)和compoter Vision(CV)领域取得了令人印象深刻的进步,但它们的时间范围内的发展受到数据传播的限制。一系列最近的研究表明,大型语言模型(LLMS)在复杂的代币序列上具有稳定的模式识别能力和推理能力。然而,熟悉的文献尚未在(a)有效地对齐时间序列和自然语言方式之间和(b)保持推理效率之间的高质量。要解决上述问题,我们现在提出了时间段框架。Time-lalama首先通过线性代币机制将时间序列输入转换为令牌嵌入。第二,时间序列令牌的床位与文本提示保持一致。第三,为了进一步适应LLM主链进行时间序列建模,我们开发了一种动态的低级适应技术(D-Lora)。d-lora动态性地选择了每个时间序列输入的变压器主链各层的最合适的洛拉模块,从而增强了模型的预测能力。我们对具有挑战性的现实时间序列任务的广泛收集的实验结果证实,我们提出的方法实现了最新的(SOTA)性能。1