摘要 - 关于基于相机和LIDAR的语义对象细分的批判性研究,用于自动驾驶的批判性研究显着受益于深度学习的发展。具体来说,视觉变压器是一种新型的突破性,将多头注意机制成功地带入了计算机视觉应用。因此,我们提出了一个基于视觉变压器的网络,以进行摄像机范围融合,以应用于自动驾驶的语义分割。我们的提案在双向网络上使用视觉变压器的新型渐进式策略,然后将结果集成到变压器解码器层上的交叉融合策略中。与文献中的其他作品不同,我们的摄像头融合变压器在诸如雨水和低照明之类的挑战性条件下进行了评估,表现出良好的性能。本文以不同的方式报告了对车辆和人类类别的分割结果:仅相机,仅LIDAR-和摄像头融合。我们对也用于语义分割的其他网络执行相机融合式传输(CLFT)的相干控制的基准实验。实验旨在从两个角度独立地评估CLFT的能力:多模态传感器融合和骨干架构。定量评估表明,与完全跨跨性神经网络网络(FCN)摄像头 - LIDAR-LIDAR融合神经网络相比,我们的CLFT网络可在具有挑战性的暗湿条件下获得高达10%的改善。我们的完整代码可在线提供交互式演示和应用程序1。与变压器主链与网络形成鲜明对比,但使用单一模态输入,全周围的改进为5-10%。
主要关键词