摘要 - 鸟眼视图中的3D对象检测(BEV)空间最近已成为自主驾驶领域的一种普遍方法。与透视图方法相比,尽管准确性和速度估计的改善有所提高,但现实世界自动驾驶汽车中基于BEV的技术的部署仍然具有挑战性。这主要是由于它们依赖基于视觉转化器(VIT)的架构,该体系结构引入了相对于输入分辨率的二次复杂性。为了解决这个问题,我们提出了一个有效的基于BEV的3D检测框架,称为Bevenet,该框架利用了仅卷积的架构建筑设计来规避VIT模型的局限性,同时保持基于BEV的方法的有效性。我们的例子表明,在Nuscenes挑战中,Bevenet比现代的最新方法(SOTA)快速(SOTA)方法,达到0.456的平均平均精度(MAP)为0.456,NUSCENES检测分数(NDS)的平均精度(MAP)为0.555在Nuscenes验证验证数据上,均为0.555,并使用persenter firames perference Speets perspersy Specters perspersy perspersy perspersy prement perspersy prement per per per 47。据我们所知,这项研究是第一个实现基于BEV的方法的重大效率提高的研究,强调了它们对现实世界自动驾驶应用程序的可行性的增强。
查询为动态3D框,并根据每个查询框生成一组POI。POI是代表3D对象并扮演基本单元在多模式融合中的角色的关键。具体来说,我们将POIS投射到每种模态的视图中,以通过动态融合块在每个POI上集成相应的功能并集成了每个POI的多模态特征。此外,从同一查询框中得出的POI的特征共同汇总到查询功能。我们的方法可以防止视图转换引起的信息损失,并消除了计算密集型的全球关注,从而使多模式3D对象检测器更适用。我们对Nuscenes和Ar-Goversy2数据集进行了广泛的实验,以评估我们的方法。明显地说,所提出的方法在两个数据集上实现了最先进的结果,没有任何铃铛和窃窃私语,即,nscenes上的74.9%NDS和73.4%的地图,Argoverse2上的31.6%CD和40.6%的地图。该代码将在https:// djiajunustc提供。github.io/projects/poifusion。
摘要 - 在这项工作中,我们提出了一种破坏性节俭的激光雷达感知数据流,该数据流产生而不是感知环境的一部分,这些部分是基于对环境的广泛培训,或者对整体预测准确性的影响有限的。因此,所提出的方法将传感能量与训练数据进行交易,以获取低功率机器人和自动导航,以便用传感器省将,从而在一次电池充电时延长了其寿命。我们提出的为此目的提出的生成预训练策略称为径向掩盖的自动编码(R-MAE),也可以在典型的激光雷达系统中很容易实施,通过选择性激活和控制在现场操作过程中随机生成的角区域的激光功率。我们的广泛评估表明,使用R-MAE进行预训练可以重点关注数据的径向段,从而比常规程序更有效地限制了空间关系和对象之间的距离。因此,所提出的方法不仅降低了传感能量,而且还提高了预测准确性。例如,我们对Waymo,Nuscenes和Kitti数据集进行了广泛的评估表明,该方法在跨数据集的检测任务的平均精度提高了5%,并且从Waymo和Nuscenes转移到Kitti的检测任务的平均精度提高了4%。在3D对象检测中,它在KITTI数据集中的中等难度水平下,在AP中最多可增强小对象检测。即使使用90%的径向掩蔽,它在Waymo数据集中所有对象类中的MAP/MAPH中都超过了基线模型。此外,我们的方法在Nuscenes数据集上分别获得了MAP和NDS的3.17%和2.31%的提高,这表明了其在单个和融合的LIDAR相机模态方面的有效性。代码可在https://github.com/sinatayebati/radial Mae上公开获取。索引项 - lidar预训练,掩盖自动编码器,超有效的3D传感,边缘自治。
摘要 - 从鸟类的视图(BEV)角度来看,语义场景细分在促进移动机器人的计划和决策方面起着至关重要的作用。尽管最近仅视力的方法表现出了显着的性能进步,但它们通常在不利的照明条件下(例如降雨或夜间)挣扎。虽然主动传感器为这一挑战提供了解决方案,但激光雷达的高成本仍然是一个限制因素。将摄像机数据与汽车雷达融合起来是更便宜的替代方法,但在先前的研究中受到了较少的关注。在这项工作中,我们旨在通过引入Bevcar(一种新型的BEV对象和地图细分方法)来推动这一有希望的途径。我们方法的核心新颖性在于首先学习原始雷达数据的基于点的编码,然后将其利用以有效地将图像特征抬起到BEV空间中。我们对Nuscenes数据集进行了广泛的实验,并证明Bevcar优于当前的技术状态。此外,我们表明,合并雷达信息显着提高了挑战性环境条件中的鲁棒性,并提高了远处对象的细分性能。为了培养未来的研究,我们提供了实验中使用的Nuscenes数据集的天气拆分,以及http://bevcar.cs.uni-freiburg.de的代码和训练有素的模型。
摘要。自动驾驶(AD)的数据驱动方法在过去十年中已被广泛采用,但面临着数据集偏见和无法解释性。受到人类驾驶的知识驱动性质的启发,最近的方法探讨了大型语言模型(LLMS)的潜力,以改善交通情况中的理解和决策。他们发现,使用经过三通链(COT)推理过程的下游数据上LLM的预处理范式可以增强可解释性和场景的理解。,这种流行的策略被证明遭受了臭名昭著的概率,而精制的婴儿床与随之而来的决策不符,而这种决策仍未受到以前基于LLM的AD方法的影响。为了解决这个问题,我们激励了基于多模式的LLM的端到端决策模型,该模型同时执行COT推理并执行计划结果。fur-hoverore,我们提出了配对的婴儿床和计划结果之间的推理决策对准约束,并在推理和决策之间施加了对应关系。此外,我们重新设计了COTS,以使模型能够理解复杂的方案并增强决策绩效。我们将建议的大型语言规划师与推理决策对齐为RDA驱动器。对Nuscenes和Drivelm-Nuscenes基准的实验评估证明了我们的RDA驱动器在增强最终AD系统性能方面的有效性。具体来说,我们的RDA驱动程序在Nuscenes数据集上实现了最先进的计划性能,具有0.80 L2误差和0.32的碰撞率,并且在挑战Drivelm-nuscenes基准方面取得了领先的结果,具有0.82 L2 L2误差和0.38碰撞率。
雷达相机3D对象检测旨在与雷达信号与摄像机图像进行交互,以识别感兴趣的对象并定位其相应的3D绑定框。为了克服雷达信号的严重稀疏性和歧义性,我们提出了一个基于概率deno的扩散建模的稳健框架。我们设计了框架,可以在不同的多视图3D检测器上易于实现,而无需在训练或推理过程中使用LiDar Point Clouds。在特定的情况下,我们首先通过开发带有语义嵌入的轻质DENOIS扩散模型来设计框架编码器。其次,我们通过在变压器检测解码器的深度测量处引入重建训练,将查询降解训练开发为3D空间。我们的框架在Nuscenes 3D检测基准上实现了新的最新性能,但与基线检测器相比,计算成本的增加很少。
摘要。车辆轨迹预测越来越依赖于数据驱动的解决方案,但是它们扩展到不同数据域的能力以及较大数据集大小对其概括的影响仍然不足。虽然可以通过使用多个数据集来研究这些问题,但由于几个差异,例如,在数据for-mats,MAP分辨率和语义注释类型中,这是具有挑战性的。为了应对这些挑战,我们介绍了Unitraj,这是一个综合框架,该框架统一了各种数据集,模型和评估标准,为车辆轨迹预测字段提供了新的机会。特别是,使用Unitraj,我们进行了广泛的实验,并发现当转移到其他数据集时,模型的模型显着下降。但是,扩大数据大小和多样性可以大大提高性能,从而导致Nuscenes数据集的最新结果。我们对数据集特征提供了见解,以解释这些发现。代码可以在此处找到:https://github.com/vita-epfl/unitraj。
虽然HDMAP是自动驾驶的关键组成部分,但获取和维护的昂贵。因此,从传感器中估算这些图的估算有望减轻成本。但是,这些估计值得超过现有的HDMAP,并使用当前的方法来确定低质量图或考虑已知地图的一般数据库。在本文中,我们建议在估计HDMAP时研究的确切情况的现有地图。为了证明这一点,我们确定了3种有用的现有地图(极简主义,嘈杂和过时的)类型。然后,我们介绍了Mapex,这是一个新颖的在线HDMAP估计框架,可说明现有地图。Mapex通过将地图元素编码为查询令牌来实现这一目标,并完善用于训练基于经典查询的MAP估计模型的匹配算法。我们证明Mapex在Nuscenes数据集上带来了重大改进。例如,Mapex-给定嘈杂的地图 - 比MAPTRV2检测器提高了38%,其基于当前SOTA的基础为8%。
摘要。近年来,已经在自动驾驶中调查了大型视力和语言模型(VLM),以解决长期存在的问题,包括推理,概括和长尾方案。但是,将VLM的有效整合到自主驾驶框架中仍然是一个悬而未决的问题。在本文中,我们提出了VLP,这是一个新颖的视觉语言规划框架,它利用了大型视觉语言模式来弥合语言理解与自动驾驶之间的差距。VLP是一种训练方法,它通过提出对比度学习目标来提炼VLM的力量到端到端模块化自主驾驶。在开路和闭环任务上进行了广泛的实验,验证了VLP的实用性。尤其是,VLP通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,在Nuscenes数据集上实现了状态的端到端计划绩效。
高清(HD)地图在现代自动驾驶汽车(AV)堆栈的开发中发挥了不可或缺的作用,尽管具有高相关的标签和维护成本。因此,许多最近的作品提出了从传感器数据在线估算高清地图的方法,使AV可以在先前映射的重新下进行操作。但是,当前的在线地图估计方法是通过隔离其下游任务的,将其集成在AV堆栈中的开发。特别是它们不会产生不确定性或置信度估计。在这项工作中,我们将多个最先进的在线地图示出方法扩展到估算不确定性的额外,并显示如何与轨迹预测1允许更紧密地集成在线地图1。在这样做时,我们发现纳入不确定性的训练收敛速度最高高出50%,并且在现实世界中驾驶数据集中的预测性能高达15%。