语义细分是执行场景理解的有效方法。最近,3D鸟视图(BEV)空间中的细分已被驱动策略直接使用。但是,在商用车中使用的环绕式鱼眼摄像机的BEV细分工作有限。由于此任务没有现实世界的公共数据集,并且现有的合成数据集由于遮挡而无法处理Amodal区域,因此我们使用Cognata Simulator创建一个合成数据集,其中包括各种道路类型,天气和照明条件。我们将BEV细分概括为使用任何凸轮模型;这对于混合不同的相机很有用。我们通过在Fisheye图像上应用圆柱整流并使用基于标准LSS的BEV分割模型来实现基线。我们证明,我们可以在没有不明显的情况下实现更好的性能,这具有增加的运行时效应,这是由于预处理,视野和重新采样的伪像而导致的。此外,我们引入了一种可学习的bev池层策略,对鱼眼摄像机更有效。我们以遮挡推理模块来探讨该模型,这对于估计BEV空间至关重要。fisheyebevseg的定性 - 在视频中展示了https://youtu.be/hftpwmabgs0。
摘要:通用的很少的语义分割(GFSS)目标在学习一组基本类别的分割后,使用一些带注释的示例将新颖对象类别进行分割。典型的GFSS培训涉及两个阶段 - 基类学习,然后是新颖的课程和学习。尽管现有方法表现出了希望,但在新颖的班级数量显着时,它们通常会挣扎。大多数当前方法都冻结了编码器主链以保持基类精度;但是,冻结编码器骨架可以严重阻碍新班级中新型信息的同化。为了应对这一挑战,我们建议在GFSS中使用增量学习策略来学习编码器骨干和新型类原型。受到低级适应技术(LORA)最近成功的启发,我们通过新颖的重量分解方法向GFSS编码器主链引入了Increthorth学习。我们新提出的等级自适应权重合并策略对在编码器主链各个层中吸收的新颖性不同。在我们的工作中,我们还将增量学习策略介绍给新型类别的类原型学习。我们在Pascal-5 I和Coco-20 I数据库上进行了广泛的实验,展示了增量学习的有效性,尤其是当新颖的类人数超过基础类别时。使用我们提出的基于权重分解的增量学习(WFIL)方法,以概括性的语义分段建立了一组新的最先进的精度值。
摘要:数据增强对于像素的注释任务(如语义分割)至关重要,在语义分段中,标签会重大努力和大量劳动。传统方法,涉及简单的转换,例如旋转和翻转,创建新图像,但通常沿关键语义维度缺乏多样性,并且无法改变高级语义属性。为了解决这个问题,生成模型已成为通过生成合成图像来增强数据的有效解决方案。可控的生成模型通过使用提示和来自原始图像的视觉引用为语义分割任务提供数据增强方法。但是,这些模型在生成合成图像时面临挑战,这些图像由于难以创建有效的提示和视觉参考而准确地反映原始图像的内容和结构。在这项工作中,我们引入了使用可控差异模型进行语义分割的有效数据增强管道。我们提出的方法包括使用类别附加和视觉事先融合的类别添加的有效及时生成,以增强对真实图像中标记的类的关注,从而使管道能够生成精确数量的增强图像,同时保留分割标记的类的结构。此外,我们在合成和原始图像合并时实现了平衡算法的类平衡算法。对Pascal VOC数据集的评估,我们的管道证明了其在生成语义分割的高质量合成图像方面的有效性。我们的代码可在此HTTPS URL上找到。
医疗保健中的联邦学习(FL)患有非相同分布的(非IID)数据,从而影响模型收敛和性能。虽然现有的非IID问题解决方案通常不会量化联邦客户之间的非IID性质程度,但评估它可以改善培训经验和成果,尤其是在不熟悉数据集的现实世界中。本文提出了一种实用的非IID评估方法,用于医疗分割问题,强调了其在佛罗里达州的重要性。我们提出了一种简单而有效的解决方案,该解决方案利用了医疗图像的嵌入空间和对其元数据计算的统计测量结果。我们的方法是为医学成像而设计的,并集成到联邦平均值中,通过降低最遥远的客户的贡献,将其视为离群值,从而改善了模型的概括。此外,它通过引入客户的基于距离的聚类来增强模型个性化。据我们所知,这种方法是第一个使用基于距离的技术来为医学成像域内非IID问题提供实际解决方案的方法。此外,我们验证了三个公共FL成像放射学数据集的方法(Fets(Pati等人,2021),前列腺(Liu等人,2020b),(Liu等人,2020a)和Fed-Kits2019(Terrail等人,2022)))在各种放射学成像方案中证明其有效性。关键字:联合学习,非IID数据,个性化,概括,医学细分,医学成像。
典型的图像处理任务是识别两个相邻区域之间边界(强度变化)。从经典上讲,边缘检测方法依赖于不同类型的滤膜对图像梯度的计算。因此,所有经典算法都需要至少O(2 n)的计算复杂性,因为每个像素都需要处理(Yao,Wang,Liao,Chen和Suter,2017)。已经提出了一种量子算法,该算法应该与现有边缘提取算法相比提供指数加速(Zhang,lu和gao。2015)。但是,该算法包括一个复制操作和一个量子黑框,用于同时计算所有像素的梯度。对于这两个步骤,目前都没有有效的实现。提出了一种高效的量子算法,称为量子Hadamard Edge检测,以找到边界(Yao,Wang,
焊接过程产生的图像噪声(例如弧光,飞溅和烟雾)给基于激光视觉传感器的焊接机器人带来了巨大的挑战,可以定位焊接接缝并准确地进行自动焊接。当前,基于深度学习的方法超过了灵活性和鲁棒性的传统方法。但是,它们的重大计算成本导致与自动焊接的实时要求不匹配。在本文中,我们对卷积神经网络(CNN)和变压器的有效混合体系结构(称为动态挤压网络(DSNET))进行实时焊接接缝分段。更准确地说,开发了一个轻巧的分割框架,以充分利用变压器结构的优势,而无需显着增加计算开销。在这方面,旨在提高其功能多样性的高效编码器已被设计并导致了编码性能的大幅改进。此外,我们提出了一个插件轻巧的注意模块,该模块通过利用焊接接缝数据的统计信息并引入线性先验来产生更有效的注意力权重。使用NVIDIA GTX 1050TI对焊缝图像进行广泛的实验表明,与基线方法Transunet相比,我们的方法将参数的数量减少了54倍,将计算复杂性降低了34倍,并将推理速度提高33倍。dsnet可实现较高的准确性(78.01%IOU,87.64%骰子)和速度性能(100 fps),其模型复杂性和计算负担较低。该代码可在https://github.com/hackerschen/dsnet上找到。
我们提出了一个半监督的域适应框架,用于来自不同图像模式的脑血管序列。现有的最新方法集中在单一模态上,尽管可用的脑血管成像技术广泛。这可能导致重大分布变化,从而对跨模式的概括产生负面影响。By relying on annotated angiographies and a limited number of an- notated venographies, our framework accomplishes image-to-image translation and se- mantic segmentation, leveraging a disentangled and semantically rich latent space to represent heterogeneous data and perform image-level adaptation from source to tar- get domains.此外,我们降低了基于周期的架构的典型复杂性,并最大程度地减少了对抗性训练的使用,这使我们能够通过稳定的培训构建一个高效且直观的模型。我们评估了有关磁共振血管造影和静脉曲张的方法。在源域中实现最先进的性能时,我们的方法在目标域中达到了仅8个目标域的骰子得分系数。降低了9%,突出了其在不同模态上稳健脑血管图像分割的有希望的潜力。
1 Gustave Roussy-Centresup。Elec-therapanacea herec-therapanacea rashiation疗法中心和肿瘤学中的人工智能,Gustave Roussy Cancer Campus,Villejuif,法国2 Artorg 2 Artorg生物医学工程中心巴黎 - 萨克莱和阿里亚·萨克莱,法国4 Inserm,U1030,巴黎,法国5大学,巴黎大学,法国巴黎UFR deMédecine,法国6实验室MICS,Centralsup´elec-elec-University Paris-Saclance
从磁共振图像(MRI)中自动分割脑肿瘤是计算机视觉中具有挑战性的任务之一。许多建议研究在图像分割中使用深神经网络(DNN),因为它们在脑肿瘤图像的自动分割方面具有高性能。由于梯度扩散问题和复杂性,通常需要大量时间和额外的计算能力来训练更深的神经网络。在本文中,我们提出了一种自动技术,该技术根据深度残留学习网络(RESNET)来解决DNN的梯度问题。 重新连接可以实现更准确性,并且可以使训练过程与等效DNN相比更快。 为了实现此增强,重新连接添加了与卷积神经网络层平行的捷径跳过连接。 模拟示例已在Dataset Brats 2015上进行,以验证所提出的技术的优越性。 结果验证了所提出的技术分别为完整,核心和增强区域的改善精度分别为83%,90%和85%。 此外,它的平均计算时间(3倍)比其他DNN技术快。在本文中,我们提出了一种自动技术,该技术根据深度残留学习网络(RESNET)来解决DNN的梯度问题。重新连接可以实现更准确性,并且可以使训练过程与等效DNN相比更快。为了实现此增强,重新连接添加了与卷积神经网络层平行的捷径跳过连接。模拟示例已在Dataset Brats 2015上进行,以验证所提出的技术的优越性。结果验证了所提出的技术分别为完整,核心和增强区域的改善精度分别为83%,90%和85%。此外,它的平均计算时间(3倍)比其他DNN技术快。
摘要 - 在自动移动和机器人系统的感知框架内,对Lidars通常生成的3D点云的语义分析是许多应用程序的关键,例如对象检测和识别以及场景重建。场景语义分割可以通过将3D空间数据与专门的深神经网络直接整合在一起来实现。尽管这种类型的数据提供了有关周围环境的丰富几何信息,但它也提出了许多挑战:其非结构化和稀疏性质,不可预测的规模以及苛刻的计算要求。这些特征阻碍了实时半分析,尤其是在资源受限的硬件 - 构造方面,构成了许多机器人应用的主要计算组件。因此,在本文中,我们研究了各种3D语义分割方法,并分析了其对嵌入式NVIDIA JETSON平台的资源约束推断的性能和能力。我们通过标准化的培训方案和数据增强进行了公平的比较,为两个大型室外数据集提供了基准的结果:Semantickitti和Nuscenes。
