对环绕声的语义的空间理解是自动驾驶汽车需要安全驾驶决策所需的关键能力。最近,纯粹基于视觉的解决方案已增强了研究的兴趣。在特定的方法中,从多个摄像机中提取鸟类视图(BEV)的方法表现出了很好的空间理解性能。本文介绍了学习的位置编码的依赖性,以将基于变压器的甲基化的图像和BEV特征映射元素关联。我们提出利用外两极的几何约束,以模拟相机注意场与BEV之间的关系。它们被纳入注意机制中,作为一种新的归因术语,是学习位置编码的替代方案。实验表明,与隐式学习摄像机配置相比,我们的方法的大鹰队以2%MIOU的方式优于2%MIOU的BEV方法,并且具有出色的概括能力。
水下图像细分对于诸如水下探索,海洋环境监测和资源开发等任务至关重要。尽管如此,鉴于水下环境的复杂性和可变性,改善模型准确性仍然是水下图像分割任务中的关键挑战。为了解决这些问题,本研究提出了基于标准Segformer模型的水下图像的高性能语义分割方法。首先,Segformer中的混合变压器主链被Swin Transformer替换,以增强特征提取并促进对全局上下文信息的有效获取。接下来,在骨干的下采样阶段和解码器中引入了有效的多尺度注意(EMA)机制,以更好地捕获多尺度特征,从而进一步提高了细分精度。此外,将特征金字塔网络(FPN)结构合并到解码器中,以在多个分辨率下组合特征图,从而使模型可以有效地集成上下文信息,从而在复杂的水下环境中增强了鲁棒性。对SUIM水下图像数据集进行测试表明,拟议的模型在多个指标上达到了高性能:联合(MIOU)的平均相交(MIOU)为77.00%,平均召回(MRECALL)为85.04%,平均精度(Mprecision)为89.03%,为89.03%,F1Score(MF1Score(Mf1score)为86.63%)。与标准Segformer相比,MIOU的提高3.73%,MRECALL为1.98%,Mprecision的3.38%和MF1Score的2.44%的提高,参数增加了989万。结果表明,所提出的方法通过最小的其他计算实现了出色的分割精度,从而显示了水下图像分割中的高性能。
摘要:铁路场景的理解对于各种应用程序至关重要,包括自主火车,数字缠绕和基础设施变更监控。但是,后者的开发受到现有算法缺乏注释的数据集和局限性的限制。为了应对这一挑战,我们提出了铁路3D,这是铁路环境中语义细分的第一个综合数据集,并进行了比较分析。Rail3D涵盖了来自匈牙利,法国和比利时的三种不同的铁路环境,捕获了各种各样的铁路资产和条件。有超过2.88亿个注释点,Rail3D超过了大小和多样性的现有数据集,从而可以训练可概括的机器学习模型。我们进行了一个通用的分类,该分类使用了九个通用类(地面,植被,铁路,电线,信号,围栏,安装和建筑物),并评估了三种最先进模型的性能:KPCONV(内核点卷积),LightGBM和随机森林。最佳性能模型,一种经过的kPCONV,在联合(MIOU)上达到了平均值为86%。基于LightGBM的方法获得了71%的MIOU,但表现优于随机森林。这项研究将通过为3D语义细分提供全面的数据集和基准,从而使基础设施专家和铁路研究人员受益。数据和代码可公开用于法国和匈牙利,并根据用户反馈进行连续更新。
结合了标准和深度可分离的扩张卷积,降低了复杂性,同时保持了高度的准确性。它有四种配置,从强大的194万参数Twinlitenet +大到超轻量级34K参数Twinlitenet + Nano。值得注意的是,TwinliteNet +大的达到了92.9%的MIOU(平均交叉路口),用于驱动面积分割,而车道分割的34.2%IOU(与联合的交集)为34.2%。 这些结果实现了能力的性能,超过了当前的最新模型,而仅需少11倍的浮点操作(FLOP)才能计算。 在各种嵌入式设备上进行了严格评估,TwinliteNet +表现出了有希望的LASCENCE和功率效率,从而强调了其对现实世界自动驾驶汽车应用的潜力。 该代码可在https://github.com/chequanghuy/twinlitenetplus上找到。达到了92.9%的MIOU(平均交叉路口),用于驱动面积分割,而车道分割的34.2%IOU(与联合的交集)为34.2%。这些结果实现了能力的性能,超过了当前的最新模型,而仅需少11倍的浮点操作(FLOP)才能计算。在各种嵌入式设备上进行了严格评估,TwinliteNet +表现出了有希望的LASCENCE和功率效率,从而强调了其对现实世界自动驾驶汽车应用的潜力。该代码可在https://github.com/chequanghuy/twinlitenetplus上找到。
本文提出了一种基于深度学习的可容纳性评估方法,构成了街头规模的智能手机点云和城市规模的3D行人网络(3DPN)。3DPN已被研究和映射以进行轮廓和智能城市应用。然而,由于省略的行人路径,未发现的楼梯和过度简化的高架人行道,文献中3DPN的城市水平尺度对于评估轮椅的可及性(即车轮)不完整;如果映射量表处于为轮椅使用者设计的微观级别,则可以更好地表示这些功能。在本文中,我们使用智能手机点云加强了城市规模的3DPN,这是一种有希望的数据源,用于补充细微的细节和由于厘米级别的准确性,鲜艳的色彩,高密度和人群源性质而导致的细颗粒细节和温度变化。三步方法重建行人路径,楼梯和坡度细节,并丰富城市规模的3DPN进行轮廓评估。PEDESTRIAN路径的实验结果表现出准确的3DPN中心线位置(miou = 88。81%),楼梯检测(miou = 86。39%)和轮子性评估(MAE = 0。09)。本文贡献了一种适合,准确和人群采购的轮子评估方法,该方法将无处不在的智能手机和3DPN架起高密度和丘陵的城市区域的3DPN。
摘要 - 优化人工神经网络的计算效率对于资源受限的平台(例如自主驾驶系统)至关重要。为了应对这一挑战,我们提出了一个轻巧的上下文感知网络(LCNET),该网络加速了语义细分,同时在本文中保持了推理速度和细分精度之间的有利权衡。提出的LCNET引入了部分通道转换(PCT)策略,以最大程度地减少基本单元的计算潜伏期和硬件要求。在PCT块中,三个分支的上下文聚合(TCA)模块扩展了功能接收场,从而捕获多尺度上下文信息。此外,双重注意引导的解码器(DD)恢复了空间细节并增强了像素预测的认可。在三个基准上进行的广泛实验证明了拟议的LCNET模型的有效性和效率。值得注意的是,一个较小的LCNET 3_7仅获得了73.8%MIOU,只有51万个参数,分别使用单个RTX 3090 GPU和Jetson Xavier NX,其令人印象深刻的推理速度约为142.5 fps和〜9 fps。更准确的LCNET 3_11版本可以在约117 fps的推理速度下以相同的分辨率达到75.8%MIOU,在城市景观上约为117 fps推理速度。可以在较小的图像分辨率下实现更快的推理速度。LCNET在移动应用程序方案 - iOS的计算效率和预测能力之间取得了巨大的平衡。代码可在https://github.com/lztjy/lcnet上找到。
摘要 - 在本文中,我们指出,基于卷积神经网络(CNN)基于变压器的检测器之间的基本差异,这些检测器在基于变压器的方法中导致小对象的性能较差,是局部信息与全局依赖性在特征提取和传播中的差距。为了使这些差异打扮,我们提出了一种新的视觉变速器,称为Hybrid Network Transformer(Hyneter),此前表明差距导致基于CNN的基于CNN的方法和基于变压器的方法,以增加尺寸不同的对象的结果。不同于以前方法中的分裂策略,Hyneters由混合网络骨干(HNB)和双切换(DS)模块组成,这些模块集成了本地信息和全局,并同时转移它们。基于平衡策略,HNB通过将卷积层嵌入并联中的变压器块中扩展了局部信息的范围,并且DS调整了对斑块外部全局依赖性的过度依赖。消融研究表明,Hyneters通过 + 2的巨大边缘实现了最先进的表现。1〜13。2 AP在可可和 + 3上。 1〜6。 5 miou在visdrone上具有较轻的型号大小和对象检测的计算成本较低。 此外,Hyneters在多个计算机视觉任务上实现了最新的结果,例如对象检测(60。 1 AP在可可和46上。 1 AP在Visdrone上),语义segmentation(54。 3 AP上的ADE20K)和实例分段(48。 可可上的5个ap掩码),并超过以前的最佳方法。2 AP在可可和 + 3上。1〜6。5 miou在visdrone上具有较轻的型号大小和对象检测的计算成本较低。此外,Hyneters在多个计算机视觉任务上实现了最新的结果,例如对象检测(60。1 AP在可可和46上。1 AP在Visdrone上),语义segmentation(54。3 AP上的ADE20K)和实例分段(48。可可上的5个ap掩码),并超过以前的最佳方法。该代码将在以后公开可用。
摘要:本文讨论了一种针对脑肿瘤的医学图像分割改进模型,该模型是一种基于U-Net架构的深度学习算法。在传统U-Net基础上,引入GSConv模块和ECA注意力机制,提升模型在医学图像分割任务中的表现。通过这些改进,新的U-Net模型能够更高效地提取和利用多尺度特征,同时灵活地聚焦重要通道,从而显著提高分割效果。在实验过程中,对改进的U-Net模型进行了系统的训练和评估。通过观察训练集和测试集的loss曲线,我们发现两者的loss值在第8个epoch之后迅速下降到最低点,随后逐渐收敛并趋于稳定。这表明我们的模型具有良好的学习能力和泛化能力。此外,通过监测平均交集比(mIoU)的变化,我们可以看到在第35个epoch之后,mIoU逐渐趋近于0.8并且保持稳定,这进一步验证了模型的有效性。与传统U-Net相比,基于GSConv模块和ECA注意机制的改进版本在分割效果上表现出明显的优势,特别是在脑肿瘤图像边缘的处理上,改进模型能够提供更为准确的分割结果,这一成果不仅提高了医学图像分析的准确率,也为临床诊断提供了更可靠的技术支持。综上所述,本文提出的基于GSConv模块和ECA注意机制的改进U-Net模型为脑肿瘤医学图像分割提供了一种新的解决方案,其优越的性能有助于提高疾病的检测和治疗效果,在相关领域具有重要的意义。未来希望进一步挖掘该方法在其他类型医学图像处理中的应用潜力,推动医学影像事业的发展。
抽象异常检测(AD)通常集中于检测用于工业质量检查和医疗病变检查的异常区域。然而,由于特定的方案目标,AD的数据量表相对较小,与经典视觉任务(例如对象检测和语义分割)相比,评估指标仍然不足。为了填补这些空白,这项工作首先通过将可可扩展到广告字段来构建一个大规模和通用可可AD数据集。这可以在此挑战性的基准中对不同方法进行公平的评估和可持续发展。此外,当前的指标(例如AU-ROC)几乎在简单的数据集上达到饱和,该数据集对不同方法进行了全面评估。受到分割领域的指标的启发,我们提出了几个更实用的阈值依赖性AD特异性指标,即M f 1。2。8,MACC。 2。 8,miou。 2。 8和miou-max。 是由GAN反演高质量重建能力的促进的,我们提出了一个简单但功能更强大的Invad框架,以实现高质量的效果重建。 我们的方法改善了对流行的MVTEC AD,VISA和我们新提出的可可AD数据集的基于重建的方法的有效方法,在多类无监督的设置下,只有一个单个检测模型经过训练以检测不同类别的异常。 广泛的消融实验证明了我们入侵的每个组成部分的有效性。 完整的代码和模型可在https://github.com/zhangzjn/ader上找到。8,MACC。2。8,miou。2。8和miou-max。是由GAN反演高质量重建能力的促进的,我们提出了一个简单但功能更强大的Invad框架,以实现高质量的效果重建。我们的方法改善了对流行的MVTEC AD,VISA和我们新提出的可可AD数据集的基于重建的方法的有效方法,在多类无监督的设置下,只有一个单个检测模型经过训练以检测不同类别的异常。广泛的消融实验证明了我们入侵的每个组成部分的有效性。完整的代码和模型可在https://github.com/zhangzjn/ader上找到。
摘要:道路网络提取是遥感(RS)中的重要挑战。解释RS图像的自动化技术提供了一种具有成本效益的解决方案,可快速获取道路网络数据,超过传统的视觉解释方法。然而,道路网络的各种特征,例如不同地区的各个长度,宽度,材料和几何形状,构成了RS图像中的道路提取的巨大障碍。可以将道路提取问题定义为涉及捕获上下文和复杂元素的任务,同时还保留边界信息并为RS数据生成高分辨率的道路细分图。提议的Archimedes调整过程的目标量子量子扩张了道路提取的卷积神经网络(ATP QDCNNRE)技术是通过增强图像细分结果的效率来解决上述问题,从而利用遥感成像,与Archimedes Optimization Optimation Algorith Modecs(AOA)相关联(AOA)。这项研究的发现证明了与遥感图像一起使用时,ATP-QDCNNRE方法实现的道路萃取能力增强。ATP-QDCNNRE方法采用DL和超参数调整过程来生成高分辨率的道路分割图。这种方法的基础在于QDCNN模型,该模型结合了量子计算(QC)概念和扩张的卷积,以增强网络捕获本地和全局上下文信息的能力。扩张的卷积还可以增强接收场,同时保持空间分辨率,从而提取精细的道路特征。基于ATP的高参数修改改善了QDCNNRE道路提取。评估ATP QDCNNRE系统的有效性,使用基准数据库来评估其仿真结果。实验结果表明,ATP-qdcnnre以75.28%的相交(IOU)的相交(MIOU)的平均相交(MIOU)为95.19%,F1的平均相交,90.85%的F1,精度为87.54%,召回了Massachusetts Road DataSet的94.41%。与最新方法相比,这些发现证明了该技术的效率。