1 乔治华盛顿大学,华盛顿特区,美国。 2 加州大学伯克利分校电气工程与计算机科学系,加利福尼亚州伯克利,美国。 3 独立研究员,加利福尼亚州圣何塞,美国。 *通讯作者电子邮件:chris.tqy128@outlook.com 摘要。本文讨论了一种改进的脑肿瘤医学图像分割模型,该模型是一种基于U-Net架构的深度学习算法。在传统U-Net的基础上,引入GSConv模块和ECA注意机制来提高模型在医学图像分割任务中的表现。通过这些改进,新的U-Net模型能够更有效地提取和利用多尺度特征,同时灵活地关注重要通道,从而显著提高分割结果。在实验过程中,对改进的U-Net模型进行了系统的训练和评估。通过查看训练集和测试集的损失曲线,我们发现两者的损失值在第八个epoch之后都迅速下降到最低点,然后逐渐收敛并稳定下来。这表明我们的模型具有良好的学习能力和泛化能力。此外,通过监测平均交集比(mIoU)的变化,我们可以看到在第35个epoch之后,mIoU逐渐趋近于0.8并且保持稳定,这进一步验证了模型的有效性。与传统的U-Net相比,基于GSConv模块和ECA注意机制的改进版本在分割效果上表现出明显的优势。特别是在脑肿瘤图像边缘的处理上,改进的模型可以提供更准确的分割结果。这一成果不仅提高了医学图像分析的准确性,也为临床诊断提供了更可靠的技术支持。综上所述,本文提出的基于GSConv模块和ECA注意机制的改进U-Net模型为脑肿瘤医学图像分割提供了一种新的解决方案,其优越的性能有助于提高疾病的检测和治疗效果,在相关领域具有重要意义。未来我们希望进一步探索该方法在其他类型医学图像处理中的应用潜力,推动医学影像的发展。
本文(Yang等人)提出了Munet,这是一个新型的网络框架,结合了UNET和MAMBA在脑肿瘤分割方面的优势。一种特殊的基于SSM的结构,称为SD-SSM块和SD-CONV结构,通过捕获多尺度的全局和局部功能来增强细分性能,并在功能之间压缩冗余信息。此外,他们使用了结合MIOU,骰子和边界损失的新型损失函数,以优化分割的重叠和相似性。这些创新提高了脑肿瘤分割的准确性和效率。总的来说,这些论文中提出的贡献和工作涵盖了医学成像和机器学习的各个方面。论文1的重点是针对早期医学诊断的特征选择和分类。论文2提出了一个双重注意机制图卷积神经网络,用于基于脑电图的情绪产生。论文3介绍了
摘要: - 夜间驾驶带来了可见性和照明降低带来的相当困难,从而提高了不幸的可能性。热成像技术通过捕获由物体发出的热辐射(独立于环境照明条件)来提供有希望的解决方案。在本文中,我们建议一种独特的方法,用于在涉及使用深度学习技术的情况下获得的热图像的语义分割。我们的方法的标题为“用于夜间场景的多模式语义分割算法”,利用卷积神经网络(CNNS)将热图像中的像素准确分类为有意义的类别,例如道路,车辆,车辆,行人和障碍物。我们采用编码器架构,转移学习和量身定制的数据增强策略,以提高通用性以及分割能力的准确性。使用公开访问数据集进行的测试,包括KAIST数据集,证明了我们方法在准确分割热图像中的有效性。性能指标,例如像素级准确度(99%),平均相交(MIOU)(95%)(95%),总体精确度(95.75%),总召回率(96.25%)(96.25%),整体F1分数(95.75%),准确性(98%)以及准确性(97%)的详细信息中包括了详细的份量。这些值提供了拟议方法的有效性的定量度量,从精度和计算效率方面展示了其优于现有技术的优势。我们的研究有助于提高夜间驾驶安全性并提高自动驾驶汽车技术。
摘要在本文中,我们考虑了从机器人箱拾取设置中从RGB或灰度相机图像中分割多个实例的问题。用于解决此任务的先前方法通常是在Mask-RCNN框架上构建的,但是它们需要大量注释的数据集进行填充。取而代之的是,我们在几个拍摄设置中考虑任务,并在trinseg中考虑了基于mask-rcnn的透明对象的数据效率和健壮的实例分割方法。我们在trinseg中的关键创新是双重的:i)一种被称为transmixup的新颖方法,用于使用合成透明的对象实例生成新的训练图像,该图像是通过空间转换带注释的示例创建的; ii)一种评分理想对象模板的预测段和旋转之间一致性的方法。在我们的新评分方法中,空间转换是由辅助神经网络产生的,然后将得分用于填充不一致的实例预测。为了证明我们方法的效果,我们介绍了一个新的几种数据集的实验,该数据集由七个类别的非偏见(透明和半透明)对象组成,每个类别的大小,形状和透明度的透明度变化。我们的结果表明,Trinseg实现了最先进的性能,在MIOU中提高了14%以上的细化面膜RCNN,同时需要很少的带注释的培训样本。
摘要:为了指导果园管理机器人实现果园生产中的某些任务,例如自主导航和精确喷涂,这项研究提出了一个深入学习的网络,称为动态融合细分网络(DFSNET)。该网络包含局部特征聚合(LFA)层和动态融合分割体系结构。LFA层使用位置编码器进行初始转换嵌入,并通过多阶段层次结构逐渐汇总本地模式。Fusion分割模块(FUS-SEG)可以通过学习多插入空间来格式化点标签,而生成的标签可以进一步挖掘点云特征。在实验阶段,在果园田的数据集中证明了DFSNET的显着分割结果,其准确率为89.43%,MIOU率为74.05%。dfsnet优于其他语义细分网络,例如PointNet,PointNet ++,D-PointNet ++,DGCNN和Point-NN,其精度的提高了11.73%,3.76%,3.76%,2.36%,2.36%和2.74%,并分别为2.74%,并改善了这些网络,并改善了这些网络,并分别为28.3%,28.3%,9.9%,9.9%,9.9%,9.9%,9.9%,9.9%,占28.3%,占28.3%,占28.3%,分别为9.19%,分别为9.9%,均为28.3%,分别为9.3%,分别为2.19%。在全尺度数据集(简单尺度数据集 +复杂尺度数据集)上,分别为9.89和24.69%。提议的DFSNET可以从果园场景点云中捕获更多信息,并提供更准确的点云分割结果,这对果园的管理有益。
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。
摘要。现有的3D语义占用预测方法典型地将任务视为一个单发的3D体素分割问题,在输入和占用图之间的单步映射上进行了限制,这限制了它们完善和完成本地区域的能力。在本文中,我们引入了Occgen,这是3D语义占用预测的简单而强大的生成感知模型。Occgen采用了“噪声到占用”生成范式,通过预测和消除随机高斯分布来逐渐推断和完善占用图。OCCGEN由两个主要组成部分组成:一个能够处理多模式输入的条件编码器,以及一种采用多模式特征作为条件的逐步改进解码器。对这种生成管道的关键见解是,扩散的deoising过程自然能够对密集的3D杯映射的粗到细化进行建模,从而产生更详细的预测。对几个占用基准的广泛实验证明了与最新方法相比,该方法的有效实验。例如,OCCGEN在Muli-Modal,仅LIDAR-仅和仅相机设置下的Nuscenes-cupancy数据集中相对将MIOU提高9.5%,6.3%和13.3%。此外,作为一种生成感知模型,Occgen表现出鉴别模型无法实现的理想特性,例如在其多步预测并提供不确定性估计的情况下。
参考图像分割(RIS)的目的是通过相应的静脉语言表达式精确地分段图像中的对象,但依赖于成本密集的掩码注释。弱监督的RIS因此从图像文本对学习到像素级语义,这是用于分割细粒面罩的挑战。自然而然地提高了分割精度,是用图像分割模型SAM赋予弱监督的RI。尽管如此,我们观察到,简单地整合SAM会产生有限的收益,甚至由于不可避免的噪声而导致性能回归,而过度关注对象部分的挑战和挑战。在本文中,我们提出了一个创新的框架,即P PPT(PPT),与拟议的多源课程学习策略合并,以解决这些挑战。具体来说,PPT的核心是一个点发生器,它不仅可以利用Clip的文本图像对准能力和SAM强大的掩膜生成能力,而且还产生了负点提示,以固有,有效地解决嘈杂和过度的焦点问题。在适当的情况下,我们引入了一种以对象为中心图像的课程学习策略,以帮助PPT逐渐从更简单但精确的语义一致性中学习到更复杂的RIS。实验表明,我们的PPT在MIOU上显着胜过弱监督的技术,分别为11.34%,14.14%和6.97%,分别为6.97%。
摘要 - 大型和高质量的培训数据集对于深度学习至关重要。在无人机空中图像的语义分割挑战的背景下,我们提出了一种数据增强策略,该策略可以大大减少手动注释大量图像的努力。结果是一组语义,深度和RGB图像,可用于改善神经网络的性能。该方法的主要重点是生成语义图像,并且在整个过程中也生成了深度和纹理图像。提出的语义图像产生方法依赖于现实环境的3D语义网格表示。首先,我们将现有的语义信息从简化的手动标记图像集中传播到网格表示中。要处理手动标记的图像中的错误,我们为传播过程提出了一种特定的加权投票机制。第二,我们使用语义网络创建新图像。这两个步骤都使用透视投影机制和深度缓冲算法。可以使用不同的相机方向生成图像,从而允许新颖的视角。我们的方法在概念上是一般的,可用于改善各种现有数据集。对使用该方法进行增强的现有数据集(UAVID和WILDUAV)进行的实验是在HRNET上进行的。获得了推理结果的总体绩效提高高达5.5%(MIOU)。增强数据集在GitHub 1上公开可用。索引术语 - 语义图像,无人机,数据增强,图像生成,空中图像,Z-Buffer,深度缓冲区,透视投影,虚拟相机。
元素分割是基于计算机断层扫描(CT)技术的印刷电路板(PCB)无损测试的关键步骤。近年来,自我监督预处理技术的快速发展可以在没有标记样品的情况下获得一般图像特征,然后使用少量标记的样品来解决下游任务,这在PCB元素细分中具有良好的潜力。目前,最初已在PCB CT图像元素分割中应用了掩盖图像建模(MIM)预审计模型。然而,由于PCB元素的尺寸较小,诸如VIA,电线和垫子等PCB元素的尺寸较小,因此全局视野具有单个元素重建的冗余,这可能会损害模型的性能。基于此问题,我们基于PCB CT图像元素分割(EMLR-SEG)的多尺度局部视野重建,提出了一个有效的预处理模型。在此模型中,首次将教师指导的MIM预处理模型引入到PCB CT Image元素分割中,并提出了一个多尺度的本地视野提取(MVE)模块,以通过专注于本地视野来降低冗余。同时,使用了一个简单的4转化器模块解码器。实验表明,EMLR-SEG可以在我们提出的PCB CT图像数据集上实现88.6%MIOU,该数据集超过了基线模型,该数据集超过1.2%,训练时间降低了29.6小时,在相同的实验条件下降低了17.4%,在同一实验条件下减少了17.4%,这反映了EMLR-SEG在绩效和绩效方面的优势。