基于 LiDAR 的 3D 物体检测是自动驾驶的一项重要任务,当前的方法受到远处和遮挡物体的稀疏和部分点云的影响。在本文中,我们提出了一种新颖的两阶段方法,即 PC-RGNN,通过两个特定的解决方案来应对此类挑战。一方面,我们引入了一个点云完成模块来恢复密集点和整个视图的高质量提案,同时保留原始结构。另一方面,设计了一个图神经网络模块,该模块通过局部-全局注意机制以及基于多尺度图的上下文聚合全面捕捉点之间的关系,大大增强了编码特征。在 KITTI 基准上进行的大量实验表明,所提出的方法比以前最先进的基线方法有显著的进步,凸显了其有效性。
深度预测是几种计算机视觉应用程序的核心,例如自动驾驶和机器人技术。通常将其作为回归任务进行表达,其中通过网络层估算深度阀。不幸的是,很少探索深度图上值的分布。因此,本文提出了一个新颖的框架,结合了对比度学习和深度预测,使我们能够更加关注深度分布,从而对整体估计过程进行改进。有意地提出了一个基于窗口的对比学习模块,该模块将特征映射划分为非重叠的窗口,并在每个窗口内构造对比损失。形成和排序正面和负对,然后在代表空间中扩大两者之间的间隙,约束深度分布以适合深度图的特征。对Kitti和NYU数据集的实验证明了我们框架的有效性。
估计相机和激光雷达之间的相对姿势对于促进多代理系统中复杂的任务执行至关重要。尽管如此,当前的方法论遇到了两个主要局限性。首先,在跨模式特征提取中,它们通常采用单独的模态分支来从图像和点云中提取跨模式特征。此方法导致图像和点云的特征空间未对准,从而降低了建立对应关系的鲁棒性。第二,由于图像和点云之间的比例差异,不可避免地会遇到一到一对像素点的对应关系,这会误导姿势优化。为了应对这些挑战,我们通过学习从p ixel到p oint sim Imarlities(i2p ppsim)的基本对齐特征空间来提出一个名为i Mage-p oint云注册的框架。I2P PPSIM的中心是共享特征对齐模块(SFAM)。 它是在粗到精细体系结构下设计的,并使用重量共享网络来构建对齐特征空间。 受益于SFAM,I2P PPSIM可以有效地识别图像和点云之间的共同视图区域,并建立高可责任2D-3D对应关系。 此外,为了减轻一对一的对应问题,我们引入了一个相似性最大化策略,称为点最大。 此策略有效地过滤了异常值,从而确立了准确的2D-3D对应关系。 为了评估框架的功效,我们进行了有关Kitti Odometry和Oxford Robotcar的广泛实验。I2P PPSIM的中心是共享特征对齐模块(SFAM)。它是在粗到精细体系结构下设计的,并使用重量共享网络来构建对齐特征空间。受益于SFAM,I2P PPSIM可以有效地识别图像和点云之间的共同视图区域,并建立高可责任2D-3D对应关系。此外,为了减轻一对一的对应问题,我们引入了一个相似性最大化策略,称为点最大。此策略有效地过滤了异常值,从而确立了准确的2D-3D对应关系。为了评估框架的功效,我们进行了有关Kitti Odometry和Oxford Robotcar的广泛实验。结果证实了我们框架在改善图像到点云注册方面的有效性。为了使我们的结果可重现,源代码已在https://cslinzhang.github.io/i2p上发布。
摘要:智能视频监视系统(SVSS)在复杂的环境中涵盖了自动检测,跟踪,分析和决策,并以最少的人为干预在复杂的环境中涵盖了自动监测功能,涵盖了自主监测功能。在这种情况下,对象检测是SVS中的基本任务。但是,许多当前的方法通常会忽略附近对象的遮挡,从而对现实世界的SVS应用构成了挑战。为了解决这个关键问题,本文介绍了量身定制的用于对象检测的咬合处理技术的全面比较分析。评论概述了域共有的借口任务,并探索了各种架构解决方案以对抗遮挡。与主要关注单个数据集的先前研究不同,我们的分析涵盖了多个基准数据集,从而对各种对象检测方法进行了彻底的评估。通过将评估扩展到Kitti基准测试之外的数据集,这项研究对每种方法的优势和局限性提供了更全面的理解。此外,我们在现有的咬合处理方法中探讨了持续的挑战,并强调了对创新策略和未来研究方向的需求,以推动该领域的实质性进步。
摘要:此贡献旨在为研究人员提供有关适用于医疗内窥镜检查的实时3D重建方法的最新最新概述。在过去的十年中,计算能力方面已经取得了各种技术进步,并且在许多计算机视觉领域(例如自动驾驶,机器人技术和无人驾驶航空车辆)的研究工作增加了。其中一些进步也可以适应医疗内窥镜检查领域,同时应对诸如无特征表面,不同的照明条件和可变形结构等挑战。为提供全面的概述,进行了单眼,双眼,三眼和多眼方法的逻辑划分,并区分了主动和被动的方法。在这些类别中,我们认为柔性和非弹性内窥镜都尽可能充分地覆盖最新的内窥镜。讨论了与此处介绍的出版物进行比较的相关错误指标,并且在讨论了何时选择GPU而不是FPGA的基于摄像机的3D重建的选择。我们详细阐述了使用数据集的良好实践,并直接比较了提出的工作。重要的是要注意,除了医学出版物外,还认为对Kitti和Middlebury数据集进行评估的出版物还包括可能适用于医疗3D重建的相关方法。
最近基于激光雷达的 3D 物体检测 (3DOD) 方法显示出良好的效果,但它们通常不能很好地推广到源(或训练)数据分布之外的目标域。为了减少这种领域差距,从而使 3DOD 模型更具泛化能力,我们引入了一种新颖的无监督领域自适应 (UDA) 方法,称为 CMDA,它 (i) 利用来自图像模态(即相机图像)的视觉语义线索作为有效的语义桥梁,以缩小跨模态鸟瞰图 (BEV) 表示中的领域差距。此外,(ii) 我们还引入了一种基于自训练的学习策略,其中模型经过对抗性训练以生成领域不变特征,这会破坏对特征实例是来自源域还是看不见的目标域的区分。总的来说,我们的 CMDA 框架指导 3DOD 模型为新颖的数据分布生成高度信息丰富且领域自适应的特征。在我们对 nuScenes、Waymo 和 KITTI 等大规模基准进行的大量实验中,上述内容为 UDA 任务提供了显著的性能提升,实现了最先进的性能。
摘要 - 对象检测是自动驾驶汽车和高级驾驶员辅助系统(ADA)的重要感知任务。虽然已经对相机图像中的对象检测进行了广泛的研究,但通过光检测和范围(LIDAR)数据来解决此任务,这是由于其固有的稀疏性带来了独特的挑战。这项研究引入了一种基于激光雷达的对象检测的开创性方法,其中Lidar Point Cloud数据巧妙地转换为伪RGB图像格式,随后将最初用于基于相机的对象检测设计的Yolov8网络。在Kitti数据集中受过训练和严格评估,我们的方法表现出出色的性能,达到了令人印象深刻的平均平均精度(MAP)超过86%。该模型还在Tihan IITH iith自主导航数据集(TIAND)的某个点云上进行了测试。这个了不起的结果强调了拟议方法在利用LiDAR数据以进行健壮对象检测时的效率,从而有助于在自主驾驶和ADAS应用中提高感知能力。索引项 - Yolov8,点云,BEV,LIDAR,对象检测,ADAS
自主驾驶是未来的趋势。准确的3D对象检测是实现自动驾驶的先决条件。目前,3D对象检测依赖于三个主要传感器:单眼相机,立体声摄像机和LIDAR。与基于立体摄像机和激光镜头的方法相比,单眼3D对象检测提供了优势,例如广泛的检测字段和低部署成本。但是,现有的单眼3D对象检测方法的准确性不是理想的,尤其是对于遮挡目标。为了应对这一挑战,本文引入了一种新颖的方法,用于单眼3D对象检测,称为SRDDP-M3D,旨在通过考虑目标之间的空间关系,并通过脱钩方法来改进深度预测,以改善单眼3D对象检测。我们考虑如何在环境中相对于对象相对于对象的定位,并编码相邻对象之间的空间关系,对于遮挡的目标,检测性能是专门提高的。此外,还引入了将目标深度预测到目标视觉深度和目标属性深度的两个组成部分的策略。此解耦旨在提高预测目标整体深度的准确性。使用KITTI数据集的实验结果表明,这种方法显着提高了闭塞靶标的检测准确性。
抽象的深度学习模型正在自动执行许多日常任务,表明将来,即使是高风险的任务也将是自动化的,例如医疗保健和自动化驱动区。但是,由于这种深度学习模型的复杂性,了解其推理是一项挑战。此外,设计的深度学习模型的黑匣子性质可能会破坏公众对关键领域的信心。当前对本质上可解释的模型的努力仅着眼于分类任务,而在对象检测中留下了差距。因此,本文提出了一个深度学习模型,该模型可用于对象检测任务。这种模型所选的设计是众所周知的快速RCNN模型与ProtopNet模型的组合。对于可解释的AI实验,所选的性能度量是Protopnet模型的相似性评分。我们的实验表明,这种组合导致了一个深度学习模型,该模型能够以相似性得分来解释其分类,并使用视觉上的“单词袋”(称为原型)在训练过程中学习。此外,采用这种可解释的方法似乎并没有阻碍提出的模型的性能,该模型在Kitti数据集中获得了69%的地图,而GrazpedWri-DX数据集则获得了66%的地图。此外,我们的解释对相似性得分的可靠性很高。
摘要:基于激光雷达的3D对象检测和定位是自动导航系统的关键组成部分,包括自动驾驶汽车和移动机器人。大多数基于LIDAR的3D对象检测和定位方法主要使用LIDAR点云中的几何或结构特征抽象。但是,由于不利的天气条件或高度散射培养基的存在,这些方法可能会因环境噪声而易受环境噪声。在这项工作中,我们提出了一个强度感知的体素编码器,用于鲁棒3D对象检测。提出的体素编码器生成了一个强度直方图,该强度直方图描述了体素内点强度的分布,并用于增强体素特征集。我们将此强度感知的编码器集成到有效的单级体素检测器中,以进行3D对象检测。使用Kitti数据集获得的实验结果表明,我们的方法相对于3D检测中的CAR对象的最新方法,从鸟类的视图和行人和环体对象获得了可比的结果。此外,我们的模型可以在推理期间达到40.7 fps的检测率,该检测率高于最新方法的检测率,并产生较低的计算成本。