最先进的基于深度学习的立体匹配方法将视差估计视为一个回归问题,其中损失函数直接定义在真实视差及其估计视差上。然而,视差只是由成本量建模的匹配过程的副产品,而间接学习由视差回归驱动的成本量容易出现过度拟合,因为成本量受到约束。在本文中,我们提出直接向成本量添加约束,方法是用在真实视差处达到峰值的单峰分布过滤成本量。此外,估计每个像素的单峰分布的方差,以明确模拟不同环境下的匹配不确定性。所提出的架构在 Scene Flow 和两个 KITTI 立体基准上实现了最先进的性能。具体来说,我们的方法在 KITTI 2012 评估中排名第一,在 KITTI 2015 评估中排名第四(记录于 2019.8.20)。AcfNet 的代码可以在以下位置找到:https://github.com/youmi-zym/AcfNet。
摘要。对象检测的主题,涉及使汽车能够感知其环境的能力引起了更多的关注。为了更好地性能,对象检测算法通常需要大量的数据集,这些数据集经常被手动标记。此过程是充分的且耗时的。相反,模拟环境可以完全控制所有参数,并启用自动图像注释。Carla是一个专门用于自动驾驶研究的开源项目,就是这样的模拟器。本研究检查是否可以使用卡拉自动注释的模拟器数据来培训可以识别实际流量项目的对象检测模型。实验的发现表明,使用Carla的数据以及一些实际数据优化训练有素的模型令人鼓舞。Yolov5模型使用预验证的CARLA重量训练,与在2000 Kitti图像上受过训练的一项训练有素相比,所有性能指标均表现出改进。虽然它没有达到6000图像Kitti模型的性能水平,但增强确实很重要。MAP0.5:0.95得分的增强率约为10%,行人级别的改善最为明显。此外,可以证明,可以通过训练使用Carla数据的基本模型并使用Kitti数据集的较小部分对其进行微调来实现实质性的提升。此外,Carla Lidar图像在减少所需的真实图像的体积时的潜在效用是显而易见的。我们的代码可在以下网址找到:https://tinyurl.com/3fdjd9xb。
抽象的智能移动性和自动驾驶汽车(AV),必须非常精确地了解环境,以保证可靠的决策,并能够将公路部门获得的结果扩展到铁路等其他领域。为此,我们基于Yolov5引入了一个新的单阶段单眼3D对象检测卷积神经网络(CNN),该卷积神经网络(CNN)致力于公路和铁路环境的智能移动性应用。要执行3D参数回归,我们用混合锚盒替换了Yolov5的锚点。我们的方法有不同的模型大小,例如yolov5:小,中和大。我们提出的新模型已针对实时嵌入DED约束(轻巧,速度和准确性)进行了优化,该模型利用了被分裂注意的改进(SA)卷积所带来的改进(称为小型分裂注意模型(SMALL-SA)。为了验证我们的CNN模型,我们还通过利用视频游戏Grand Theft Auto V(GTAV)来引入一个新的虚拟数据集,以针对道路和铁路环境。我们在Kitti和我们自己的GTAV数据集上提供了不同模型的广泛结果。通过我们的结果,我们证明了我们的方法是最快的3D对象检测,其准确性结果接近Kitti Road数据集上的最新方法。我们进一步证明,GTAV虚拟数据集上的预训练过程提高了实际数据集(例如Kitti)的准确性,从而使我们的方法比最先进的方法获得了更高的准确性,该方法具有16.16%的3D平均均衡性精度,而硬CAR检测的推理时间为11.1 MS/rtx 3080 gpu的推理时间为11.1 s/simage。
摘要。3 D传感是自动驾驶汽车的基本任务。其部署通常依赖于对齐的RGB摄像机和激光镜头。谨慎的同步和校准,在LiDAR投影的深度图中,系统的错位持续存在。这是由于两个传感器之间的物理基线距离所致。工件通常反映为背景激光雷达错误地投射到前景上,例如汽车和行人。KITTI数据集使用立体声摄像机作为启发式解决方案来删除工件。但是,大多数AV数据集(包括Nuscenes,Waymo和DDAD)都缺少立体声图像,使Kitti解决方案不适用。我们提出了Replay,这是一种无参数的分析解决方案,用于删除投影伪像。我们在假设的虚拟LiDAR相机和RGB摄像机之间构建了一个Binocular视觉系统。然后,我们通过使用拟议的分析溶液确定面孔闭塞来删除投影伪影。我们显示出具有无伪像的深度图的最先进(SOTA)单眼估计器和3 d对象探测器的一致改进。
许多技术和系统,包括自动驾驶汽车,监视系统和机器人应用,都依赖能力来准确检测行人以确保其安全性。随着对实时对象检测的需求不断上升,许多研究人员致力于开发有效且值得信赖的算法以供行人识别。通过将学习复杂性意识到的级联反应与增强的级联集成,您只看一次(YOLO)算法,该论文提供了一个实时系统,用于识别项目和行人。使用Karlsruhe技术研究所和丰田技术学院(KITTI)行人数据集评估了所提出的方法的性能。优先考虑速度和准确性,增强的Yolo算法的表现优于其基线。在Kitti行人数据集上,建议的技术在现实世界中的有效性强调了其有效性。此外,复杂性感知的学习级联反应为简化的检测模型做出了贡献,而不会损害性能。当应用于需要对象和个人实时识别的方案时,提出的方法会始终提供有希望的结果。
摘要 - 在这项工作中,我们提出了一种破坏性节俭的激光雷达感知数据流,该数据流产生而不是感知环境的一部分,这些部分是基于对环境的广泛培训,或者对整体预测准确性的影响有限的。因此,所提出的方法将传感能量与训练数据进行交易,以获取低功率机器人和自动导航,以便用传感器省将,从而在一次电池充电时延长了其寿命。我们提出的为此目的提出的生成预训练策略称为径向掩盖的自动编码(R-MAE),也可以在典型的激光雷达系统中很容易实施,通过选择性激活和控制在现场操作过程中随机生成的角区域的激光功率。我们的广泛评估表明,使用R-MAE进行预训练可以重点关注数据的径向段,从而比常规程序更有效地限制了空间关系和对象之间的距离。因此,所提出的方法不仅降低了传感能量,而且还提高了预测准确性。例如,我们对Waymo,Nuscenes和Kitti数据集进行了广泛的评估表明,该方法在跨数据集的检测任务的平均精度提高了5%,并且从Waymo和Nuscenes转移到Kitti的检测任务的平均精度提高了4%。在3D对象检测中,它在KITTI数据集中的中等难度水平下,在AP中最多可增强小对象检测。即使使用90%的径向掩蔽,它在Waymo数据集中所有对象类中的MAP/MAPH中都超过了基线模型。此外,我们的方法在Nuscenes数据集上分别获得了MAP和NDS的3.17%和2.31%的提高,这表明了其在单个和融合的LIDAR相机模态方面的有效性。代码可在https://github.com/sinatayebati/radial Mae上公开获取。索引项 - lidar预训练,掩盖自动编码器,超有效的3D传感,边缘自治。
摘要:3D对象检测是自动驾驶和机器人技术的一项具有挑战性且有前途的任务,从LIDAR和相机等多传感器融合中受益匪浅。传感器融合的常规方法依赖于投影矩阵来对齐LiDAR和相机的特征。但是,这些方法通常遭受灵活性和鲁棒性不足,从而在复杂的环境条件下导致对齐精度降低。解决这些挑战,在本文中,我们提出了一个新型的双向注意融合模块,该模块名为Bafusion,该模块有效地使用跨注意力从激光雷达和照相机中融合了信息。与常规方法不同,我们的浮雕模块可以自适应地学习跨模式的注意力,从而使方法更加灵活和健壮。从2D Vision中的高级注意优化技术中汲取灵感,我们开发了集合的线性注意融合层(CFLAF层),并将其集成到我们的小管道中。该层优化了注意机制的计算复杂性,并促进了图像和点云数据之间的高级相互作用,展示了一种新的方法来解决跨模式注意计算的挑战。我们使用各种基线网络(例如Pointpillars,Second和A Part-A 2)在KITTI数据集上评估了我们的方法,并在这些基准线上表现出了3D对象检测性能的一致改进,尤其是对于骑自行车的人和骑行者等较小的对象。我们的方法在Kitti基准测试中取得了竞争成果。
该研究提出了三个关键的子问题:了解可靠对象检测的必要指标,探索当与摄像机/雷达信息结合使用时,LIDAR信息如何增强对象检测,并确定集成方法的限制。为了评估集成系统的有效性和鲁棒性,将在Kitti数据集中已经提供的各种情况下进行实验,考虑到不同的环境条件,照明变化和对象类型。实现阶段将利用在合适的硬件平台上运行的软件工具和库,包括Python和Tensorflow。道德考虑,数据隐私和同意将在整个研究中优先考虑。
传感器融合是自动驾驶汽车中感知问题的重要解决方案之一,其中主要目的是增强对系统的感知而不会失去实时性能。因此,这是一个权衡问题,通常观察到大多数具有高环境感知的模型无法实时执行。我们的文章与相机和激光雷达数据融合有关,以实现自动驾驶汽车的更好环境感知,考虑到3个主要类别是汽车,骑自行车的人和行人。我们从3D检测器模型中融合了输出,该模型从LiDar中获取了其输入以及从相机中获取其输入的2D检测器的输出,以比单独分别提供更好的感知输出,以确保其能够实时工作。我们使用3D检测器模型(复杂的Yolov3)和2D检测器模型(YOLO-V3)解决了问题,其中我们应用了基于图像的融合方法,该方法可以在本文中详细讨论了LIDAR和摄像机信息之间的融合和相机信息之间的融合。我们使用平均平均精度(MAP)度量,以评估我们的对象检测模型并将所提出的方法与它们进行比较。最后,我们在Kitti数据集以及我们的真实硬件设置上展示了结果,该设置由LIDAR Velodyne 16和Leopard USB摄像机组成。我们使用Python开发了我们的算法,然后在Kitti数据集上验证了它。我们将ROS2与C ++一起使用,以验证从硬件配置获得的数据集上的算法,证明我们提出的方法可以以实时的方式在实际情况下有效地提供良好的结果并有效地工作。
扩散模型(DMS)已经实现了最新的(SOTA),从而导致LIDAR点云生成任务,从而受益于他们在抽样过程中稳定的训练和迭代精炼。但是,DMS由于其固有的降解过程而经常无法实际对LiDAR Raydrop噪声进行建模。为了保留迭代采样的强度,同时增强了射线噪声的产生,我们引入了Lidargrit,这是一种生成模型,该模型使用自动回应变压器在潜在空间而不是图像空间中迭代采样范围图像。此外,lidargrit还利用VQ-VAE分别解码范围和射线罩。我们的结果表明,与Kitti-360和Kitti Odometry数据集中的SOTA模型相比,Lidargrit的性能表现出色。代码可用:https://github.com/hamedhaghighi/lidargrit。