摘要在本文中,我们考虑了从机器人箱拾取设置中从RGB或灰度相机图像中分割多个实例的问题。用于解决此任务的先前方法通常是在Mask-RCNN框架上构建的,但是它们需要大量注释的数据集进行填充。取而代之的是,我们在几个拍摄设置中考虑任务,并在trinseg中考虑了基于mask-rcnn的透明对象的数据效率和健壮的实例分割方法。我们在trinseg中的关键创新是双重的:i)一种被称为transmixup的新颖方法,用于使用合成透明的对象实例生成新的训练图像,该图像是通过空间转换带注释的示例创建的; ii)一种评分理想对象模板的预测段和旋转之间一致性的方法。在我们的新评分方法中,空间转换是由辅助神经网络产生的,然后将得分用于填充不一致的实例预测。为了证明我们方法的效果,我们介绍了一个新的几种数据集的实验,该数据集由七个类别的非偏见(透明和半透明)对象组成,每个类别的大小,形状和透明度的透明度变化。我们的结果表明,Trinseg实现了最先进的性能,在MIOU中提高了14%以上的细化面膜RCNN,同时需要很少的带注释的培训样本。
摘要。大型模型的兴起,通常称为基础模型,导致了人工智能研究领域的巨大进步。我们的经验发现表明,在特定表面分割挑战方面,大型模型可能会挣扎或表现不佳,包括识别和在条形钢表面上的缺陷(s 3 d)以及磁性瓷砖表面上不完美的情况检测。将大型模型应用于缺陷分割,而不是对大型模型进行填充,我们建议使用几种经典滤器来增强输入图像,提出了segrive demage d riven d riven d riven-d riven d riven-d riven。在这种情况下,多层中的过滤器的权重通过增强学习控制。然后,我们在具有不同少量设置的两个S 3 D数据集上测试我们的方法。我们的方法与S 3 D(例如CPANET)的其他方法相比,完成了任务。我们认为,我们的工作不仅为下游任务打开了机会,例如分割大型模型的工业缺陷,而且可能在将来在各种领域中都有潜在的应用,包括医疗图像处理,远程感应图像分析,农业等。
摘要。我们为开放世界实例(OWIS)提出了一种方法,该任务旨在通过从训练过程中的一组有限的带注释的对象类中概括图像中的任意未知的观察。我们的细分对象系统(SOS)明确地解决了最先进系统的概括能力和低精度,这些系统通常会生成背景检测。为此,我们基于基础模型SAM [27]生成了高质量的伪注释。我们彻底研究了各种对象先验,以引起SAM的提示,并明确将基础模型集中在观察上。最强的物体先验是通过自我监督视觉变压器的自我发项图获得的,我们用来促使SAM。最后,SAM的后处理片段用作伪注释来训练标准实例分割系统。我们的方法在可可,LVI和ADE20K数据集上显示出强大的概括能力,并且与最先进的方法相比,精度提高了高达81.6%。源代码可用:https://github.com/chwilms/sos
摘要 - 关于基于相机和LIDAR的语义对象细分的批判性研究,用于自动驾驶的批判性研究显着受益于深度学习的发展。具体来说,视觉变压器是一种新型的突破性,将多头注意机制成功地带入了计算机视觉应用。因此,我们提出了一个基于视觉变压器的网络,以进行摄像机范围融合,以应用于自动驾驶的语义分割。我们的提案在双向网络上使用视觉变压器的新型渐进式策略,然后将结果集成到变压器解码器层上的交叉融合策略中。与文献中的其他作品不同,我们的摄像头融合变压器在诸如雨水和低照明之类的挑战性条件下进行了评估,表现出良好的性能。本文以不同的方式报告了对车辆和人类类别的分割结果:仅相机,仅LIDAR-和摄像头融合。我们对也用于语义分割的其他网络执行相机融合式传输(CLFT)的相干控制的基准实验。实验旨在从两个角度独立地评估CLFT的能力:多模态传感器融合和骨干架构。定量评估表明,与完全跨跨性神经网络网络(FCN)摄像头 - LIDAR-LIDAR融合神经网络相比,我们的CLFT网络可在具有挑战性的暗湿条件下获得高达10%的改善。我们的完整代码可在线提供交互式演示和应用程序1。与变压器主链与网络形成鲜明对比,但使用单一模态输入,全周围的改进为5-10%。
精确的声道建模对于构建可解释语音处理和语言学的发音表征是必不可少的。然而,声道建模具有挑战性,因为许多内部发音器官被外部运动捕捉技术遮挡。实时磁共振成像 (RT-MRI) 可以测量语音过程中内部发音器官的精确运动,但由于标记方法耗时且计算成本高昂,MRI 的注释数据集大小有限。我们首先使用纯视觉分割方法为 RT-MRI 视频提出一种深度标记策略。然后,我们介绍一种使用音频来改进发声器官分割的多模态算法。我们共同为 MRI 视频分割中的声道建模设定了新的基准,并利用该基准为 75 位说话者的 RT-MRI 数据集发布了标签,将声道的带标签公共 RT-MRI 数据量增加了 9 倍以上。代码和数据集标签可在 rishiraij.github.io/multimodal-mri-avatar/ 找到。索引术语:发音语音、视听感知
音频denoising,尤其是在鸟类声音的背景下,由于持续的残留噪声,这仍然是一项具有挑战性的任务。传统和深度学习方法通常在人工或低频噪声中挣扎。在这项工作中,我们提出了VITV,这是一种新型的方法,利用了视觉变形(VIT)架构的力量。vitvs熟练地结合了分段技术,从而将清洁音频与复杂的信号混合物中解脱出来。我们的主要贡献涵盖了VITV的发展,引入了全面,远程和多规模的表示。这些贡献直接解决了常规方法固有的局限性。广泛的例子表明,VITV的表现要优于最先进的方法,将其定位为现实世界中鸟类声音降解应用的基准解决方案。源代码可用:https://github.com/aiai-4/vivts。索引术语:音频denoising,变压器,分段
摘要 — 坑洼检测对于道路安全和维护至关重要,传统上依赖于 2D 图像分割。然而,现有的 3D 语义坑洼分割研究往往忽略点云稀疏性,导致局部特征捕获和分割精度不理想。我们的研究提出了一种创新的基于点云的坑洼分割架构。我们的模型有效地识别隐藏特征并使用反馈机制来增强局部特征,改善特征呈现。我们引入了一个局部关系学习模块来理解局部形状关系,增强了结构洞察力。此外,我们提出了一种轻量级自适应结构,用于使用 K 最近邻算法细化局部点特征,解决点云密度差异和域选择问题。共享 MLP 池化被集成以学习深度聚合特征,促进语义数据探索和分割指导。在三个公共数据集上进行的大量实验证实了 PotholeGuard 优于最先进方法的性能。我们的方法为稳健而准确的 3D 坑洼分割提供了一种有前途的解决方案,可应用于道路维护和安全。索引词——坑洼、点云、语义分割、计算机视觉
摘要 - 从鸟类的视图(BEV)角度来看,语义场景细分在促进移动机器人的计划和决策方面起着至关重要的作用。尽管最近仅视力的方法表现出了显着的性能进步,但它们通常在不利的照明条件下(例如降雨或夜间)挣扎。虽然主动传感器为这一挑战提供了解决方案,但激光雷达的高成本仍然是一个限制因素。将摄像机数据与汽车雷达融合起来是更便宜的替代方法,但在先前的研究中受到了较少的关注。在这项工作中,我们旨在通过引入Bevcar(一种新型的BEV对象和地图细分方法)来推动这一有希望的途径。我们方法的核心新颖性在于首先学习原始雷达数据的基于点的编码,然后将其利用以有效地将图像特征抬起到BEV空间中。我们对Nuscenes数据集进行了广泛的实验,并证明Bevcar优于当前的技术状态。此外,我们表明,合并雷达信息显着提高了挑战性环境条件中的鲁棒性,并提高了远处对象的细分性能。为了培养未来的研究,我们提供了实验中使用的Nuscenes数据集的天气拆分,以及http://bevcar.cs.uni-freiburg.de的代码和训练有素的模型。
摘要——我们提出了 Q-Seg,这是一种基于量子退火的新型无监督图像分割方法,专为现有量子硬件量身定制。我们将逐像素分割问题(吸收图像的光谱和空间信息)公式化为图形切割优化任务。我们的方法有效地利用了 D-Wave Advantage 设备的互连量子位拓扑,与现有量子方法相比具有出色的可扩展性,并且优于几种经过测试的最先进的经典方法。对合成数据集的实证评估表明,Q-Seg 的运行时性能优于最先进的经典优化器 Gurobi。该方法还在地球观测图像分割上进行了测试,这是一个具有噪声和不可靠注释的关键领域。在嘈杂的中尺度量子时代,与 Segment Anything 等先进技术相比,Q-Seg 成为现实世界应用的可靠竞争者。因此,Q-Seg 使用可用的量子硬件提供了一种有前途的解决方案,特别是在受到有限标记数据和高效计算运行时间的需求限制的情况下。
由卷积神经网络激励的深度学习在一系列医学成像问题(例如图像分类,图像分割,图像合成等)中非常成功。但是,对于验证和可解释性,我们不仅需要模型做出的预测,而且还需要在做出这些预测时它的自信。这对于人民接受安全的关键应用很重要。在这项工作中,我们使用了基于变异推理技术的编码器解码器结构来分割脑肿瘤图像。我们使用骰子相似性系数(DSC)和联合(IOU)的交集作为评估指标,评估公开可用的Brats数据集的工作。我们的模型能够以原则上的贝叶斯方式考虑脑肿瘤,同时考虑到疾病的不确定性和认知不确定性。