摘要。多模式图像的使用通常可以改善分段。但是,由于临床限制,完整的多模式数据集通常不可用。为了解决这个问题,我们提出了一个新颖的mul-timodal分割框架,该框架可通过使用利益区域(ROI)细心的模态完成,可以使缺少模态固定。我们使用ROI专注的跳过连接专注于与分割相关的收件,以及结合肿瘤ROI的关注点和分割概率图的关节歧视者,以学习与分割与分割相关的共享潜在表示。我们的方法在脑部分割挑战数据集中得到了285例,该数据集的全部肿瘤,肿瘤核心和增强肿瘤的三个区域。它也是在缺血性卒中病变分割挑战数据集上的带有28例梗塞病变的阀门。我们的方法在强大的多模式分割中优于最先进的方法,分别为三种类型的脑肿瘤区域的平均骰子分别为84.15%,75.59%和54.90%,中风病变的平均骰子为48.29%。我们的方法可以改善需要多模式图像的临床工作流程。
自主机器人系统近年来引起了越来越多的关注,在这种环境中,环境是机器人导航,人类机器人互动和决策的关键步骤。现实世界机器人系统通常会从多个传感器中收集视觉数据,并经过重新识别以识别许多对象及其在复杂的人拥挤的设置中。传统的基准标记,依赖单个传感器和有限的对象类和场景,无法提供机器人对策划导航,互动和决策的需求的综合环境理解。作为JRDB数据集的扩展,我们揭开了一种新颖的开放世界式分割和跟踪基准,介绍了一种新型的开放世界式分割和跟踪基准。JRDB-Panotrack包括(1)各种数据室内和室外拥挤的场景,以及
对于医学图像分割,想象一下如果一个模型仅使用源域中的 MRI 图像进行训练,那么它在目标域中直接分割 CT 图像的性能如何?这种设置,即具有临床潜力的通用跨模态分割,比其他相关设置(例如域自适应)更具挑战性。为了实现这一目标,我们在本文中提出了一种新颖的双重规范化模型,该模型在通用分割过程中利用增强的源相似和源不相似图像。具体而言,给定一个源域,旨在模拟看不见的目标域中可能的外观变化,我们首先利用非线性变换来增强源相似和源不相似图像。然后,为了充分利用这两种类型的增强,我们提出的基于双重规范化的模型采用共享主干但独立的批量规范化层进行单独规范化。随后,我们提出了一种基于风格的选择方案,在测试阶段自动选择合适的路径。在三个公开数据集(即 BraTS、跨模态心脏和腹部多器官数据集)上进行的大量实验表明,我们的方法优于其他最先进的领域泛化方法。代码可在 https://github.com/zzzqzhou/Dual-Normalization 获得。
近年来,已经提出了连续的潜在空间(CLS)和DISCRETE潜在空间(DLS)深度学习模型,以改善医学图像分析。但是,这些模型遇到了不同的挑战。cls模型捕获了复杂的细节,但由于其强调低级特征,因此在结构表示和易男性方面通常缺乏解释性。尤其是,DLS模型提供了可解释性,鲁棒性以及由于其结构性潜在空间而捕获粗粒度信息的能力。但是,DLS模型在捕获细粒细节方面的功效有限。为了确定DLS和CLS模型的局限性,我们采用了Synergynet,这是一种新型的瓶颈体系结构,旨在增强现有的编码器 - 核编码器分割框架。Synergynet无缝地将离散和连续的表示形式整合到利用互补信息中,并成功保留了细学的表示的细节。我们对多器官分割和CAR-DIAC数据集进行的实验实验表明,SynergyNet的表现优于包括Transunet:Transunet:DICE评分提高2.16%的其他最新方法,而Hausdorff分别分别提高了11.13%。在评估皮肤病变和脑肿瘤分割数据集时,我们观察到皮肤病变分割的交互分数的1.71%的重新提高,脑肿瘤分割的增长率为8.58%。我们的创新方法为增强医学图像分析关键领域中深度学习模型的整体性能和能力铺平了道路。
临床成像工作流的主要重点是疾病诊断和管理,导致医学成像数据集与特定的临床目标密切相关。这种情况导致了开发特定于任务的分割模型的主要实践,而没有从广泛的成像群中获得见解。受到医学放射学居民培训计划的启发,我们提出了向普遍医学图像分割的转变,旨在通过利用临床目标,身体区域和成像方式的多样性和共同点来建立医学图像理解基础模型的范式。div of这个目标,我们开发了爱马仕,一种新颖的上下文 - 学习方法,以应对医学图像segmentation中数据杂基的挑战和注释差异。在五种模式(CT,PET,T1,T2和Cine MRI)和多个身体区域的大量各种数据集(2,438个3D图像)中,我们证明了通用范式比传统范式在单个模型中解决多个任务的传统范式的优点。通过跨任务的协同作用,爱马仕在所有测试数据集中都能达到最先进的性能,并显示出卓越的模型可伸缩性。其他两个数据集中的结果揭示了爱马仕在转移学习,分裂学习和对下游任务的概括方面的出色表现。爱马仕(Hermes)博学的先生展示了一个具有吸引力的特征,以反映任务和方式之间的复杂关系,这与既定的放射学解剖学和成像原则相吻合。代码可用1。
结合了标准和深度可分离的扩张卷积,降低了复杂性,同时保持了高度的准确性。它有四种配置,从强大的194万参数Twinlitenet +大到超轻量级34K参数Twinlitenet + Nano。值得注意的是,TwinliteNet +大的达到了92.9%的MIOU(平均交叉路口),用于驱动面积分割,而车道分割的34.2%IOU(与联合的交集)为34.2%。 这些结果实现了能力的性能,超过了当前的最新模型,而仅需少11倍的浮点操作(FLOP)才能计算。 在各种嵌入式设备上进行了严格评估,TwinliteNet +表现出了有希望的LASCENCE和功率效率,从而强调了其对现实世界自动驾驶汽车应用的潜力。 该代码可在https://github.com/chequanghuy/twinlitenetplus上找到。达到了92.9%的MIOU(平均交叉路口),用于驱动面积分割,而车道分割的34.2%IOU(与联合的交集)为34.2%。这些结果实现了能力的性能,超过了当前的最新模型,而仅需少11倍的浮点操作(FLOP)才能计算。在各种嵌入式设备上进行了严格评估,TwinliteNet +表现出了有希望的LASCENCE和功率效率,从而强调了其对现实世界自动驾驶汽车应用的潜力。该代码可在https://github.com/chequanghuy/twinlitenetplus上找到。
水下图像细分对于诸如水下探索,海洋环境监测和资源开发等任务至关重要。尽管如此,鉴于水下环境的复杂性和可变性,改善模型准确性仍然是水下图像分割任务中的关键挑战。为了解决这些问题,本研究提出了基于标准Segformer模型的水下图像的高性能语义分割方法。首先,Segformer中的混合变压器主链被Swin Transformer替换,以增强特征提取并促进对全局上下文信息的有效获取。接下来,在骨干的下采样阶段和解码器中引入了有效的多尺度注意(EMA)机制,以更好地捕获多尺度特征,从而进一步提高了细分精度。此外,将特征金字塔网络(FPN)结构合并到解码器中,以在多个分辨率下组合特征图,从而使模型可以有效地集成上下文信息,从而在复杂的水下环境中增强了鲁棒性。对SUIM水下图像数据集进行测试表明,拟议的模型在多个指标上达到了高性能:联合(MIOU)的平均相交(MIOU)为77.00%,平均召回(MRECALL)为85.04%,平均精度(Mprecision)为89.03%,为89.03%,F1Score(MF1Score(Mf1score)为86.63%)。与标准Segformer相比,MIOU的提高3.73%,MRECALL为1.98%,Mprecision的3.38%和MF1Score的2.44%的提高,参数增加了989万。结果表明,所提出的方法通过最小的其他计算实现了出色的分割精度,从而显示了水下图像分割中的高性能。
摘要:通用的很少的语义分割(GFSS)目标在学习一组基本类别的分割后,使用一些带注释的示例将新颖对象类别进行分割。典型的GFSS培训涉及两个阶段 - 基类学习,然后是新颖的课程和学习。尽管现有方法表现出了希望,但在新颖的班级数量显着时,它们通常会挣扎。大多数当前方法都冻结了编码器主链以保持基类精度;但是,冻结编码器骨架可以严重阻碍新班级中新型信息的同化。为了应对这一挑战,我们建议在GFSS中使用增量学习策略来学习编码器骨干和新型类原型。受到低级适应技术(LORA)最近成功的启发,我们通过新颖的重量分解方法向GFSS编码器主链引入了Increthorth学习。我们新提出的等级自适应权重合并策略对在编码器主链各个层中吸收的新颖性不同。在我们的工作中,我们还将增量学习策略介绍给新型类别的类原型学习。我们在Pascal-5 I和Coco-20 I数据库上进行了广泛的实验,展示了增量学习的有效性,尤其是当新颖的类人数超过基础类别时。使用我们提出的基于权重分解的增量学习(WFIL)方法,以概括性的语义分段建立了一组新的最先进的精度值。
摘要:数据增强对于像素的注释任务(如语义分割)至关重要,在语义分段中,标签会重大努力和大量劳动。传统方法,涉及简单的转换,例如旋转和翻转,创建新图像,但通常沿关键语义维度缺乏多样性,并且无法改变高级语义属性。为了解决这个问题,生成模型已成为通过生成合成图像来增强数据的有效解决方案。可控的生成模型通过使用提示和来自原始图像的视觉引用为语义分割任务提供数据增强方法。但是,这些模型在生成合成图像时面临挑战,这些图像由于难以创建有效的提示和视觉参考而准确地反映原始图像的内容和结构。在这项工作中,我们引入了使用可控差异模型进行语义分割的有效数据增强管道。我们提出的方法包括使用类别附加和视觉事先融合的类别添加的有效及时生成,以增强对真实图像中标记的类的关注,从而使管道能够生成精确数量的增强图像,同时保留分割标记的类的结构。此外,我们在合成和原始图像合并时实现了平衡算法的类平衡算法。对Pascal VOC数据集的评估,我们的管道证明了其在生成语义分割的高质量合成图像方面的有效性。我们的代码可在此HTTPS URL上找到。
典型的图像处理任务是识别两个相邻区域之间边界(强度变化)。从经典上讲,边缘检测方法依赖于不同类型的滤膜对图像梯度的计算。因此,所有经典算法都需要至少O(2 n)的计算复杂性,因为每个像素都需要处理(Yao,Wang,Liao,Chen和Suter,2017)。已经提出了一种量子算法,该算法应该与现有边缘提取算法相比提供指数加速(Zhang,lu和gao。2015)。但是,该算法包括一个复制操作和一个量子黑框,用于同时计算所有像素的梯度。对于这两个步骤,目前都没有有效的实现。提出了一种高效的量子算法,称为量子Hadamard Edge检测,以找到边界(Yao,Wang,