我们介绍多视图的细心上下文化(MVACON),这是一种简单而有效的方法,用于改善基于查询的多视图3D(MV3D)对象检测中的2D- TO-3D功能。尽管在基于查询的MV3D对象检测的领域取得了显着的进展,但先前的艺术通常会因高分辨率的高分辨率2D特征而缺乏基于密集的注意力提升的高分辨率2D特征,或者由于高计算成本,或者由于3D Queries的高度密集地接地不足,无法以3D Queries的高度质量为基于稀疏注意的多级2D功能。我们提出的MVACON使用代表密集但计算稀疏的细心特征连续化方案击中了两只鸟,该方案对特定的2d到3d feleture提升方法不可知。在实验中,使用BEVFormer及其最近的3D变形注意(DFA3D)变体以及PETR对纳斯曲霉基准进行了彻底的测试,并显示出一致的检测性能提高,尤其是在位置,方向和VELOCITY PRECTICTAR中提高了一致的检测性能。还可以在Waymo-Mini基准测试器上进行测试,并具有类似的改进。我们在定性和定量上表明,基于全局群集的上下文有效地编码了MV3D检测的密集场景级上下文。我们提出的MVA-CON的有希望的结果加强了计算机视觉中的格言 - “(contectu-alsized)特征事项”。
深度神经网络(DNN)越来越多地整合到LiDAR(灯光检测和范围)的自动驾驶汽车(AVS)的感知系统(AVS),在对抗条件下需要稳健的性能。一个紧迫的担忧是LiDAR SPOOFEF攻击所带来的挑战,在该攻击中,攻击者将假物体注入LiDAR数据中,导致AVS误解了周围的环境并做出错误的决定。许多经常出租防御算法主要取决于感知输出,例如边界框。但是,这些输出在本质上受到了限制,因为它们是由从自我车辆的特定视图中获得的一组限制点产生的。对边界框的依赖是这种基本约束的体现。为了克服这些局限性,我们提出了一个新的框架,称为采用(基于名称的基于d eTection o n p oInt级的t emporal一致性),该框架基于连续帧的时间一致性,并基于点簇的相干性来量身定量测量跨连续帧的时间一致性。在我们使用Nuscenes数据集的评估中,我们的算法有效地反驳了各种激光局部攻击,达到了低(<10%)的假阳性比率(<10%)的假阳性比(> 85%)真实的正比,超过了现有的现有的现有的先进防御方法,CARLO和3D-TC2。此外,采用在各种道路环境中表现出有希望的准确防御潜力。
摘要 - 多传感器对象检测是自动驾驶中的一个积极研究主题,但是这种检测模型的鲁棒性针对缺失的传感器输入(缺少模态)(例如,由于突然的传感器故障)是一个关键问题,这是一个关键问题,这仍然不足。在这项工作中,我们提出了Unibev,这是一种端到端的多模式3D对象检测框架,旨在稳健性,以防止缺失模式:Unibev可以在Lidar Plus相机输入上运行,但也可以在无激光镜或仅相机输入的情况下操作。为了促进其检测器头以处理不同的输入组合,Unibev旨在从每种可用方式中创建良好的鸟类视图(BEV)特征图。与以前的基于BEV的多模式检测方法不同,所有传感器模态都遵循统一的AP-prach,以从原始传感器坐标系统重新示例到BEV功能。我们还研究了各种融合策略W.R.T.的鲁棒性缺少模态:常用的特征串联,但也通过通道平均,以及对平均定期通道归一化权重的加权平均化的概括。为了验证其有效性,我们将Unibev与所有传感器输入组合的Nuscenes的最新bevfusion和Metabev进行了比较。在这种情况下,对于所有输入组合,Unibev的性能比这些基准更好。一项消融研究表明,通过对常规的con依的加权平均融合的鲁棒性优势,并在每种模态的BEV编码器之间共享查询。我们的代码将在纸上接受时发布。
现有的基于LIDAR的3D对象检测方法主要采用从划线范式进行训练。不幸的是,这种范式在很大程度上重新确定了大规模标记的数据,其收集可以充分陈述且耗时。自我监管的预训练是一种减轻这种依赖对广泛注释数据的有效且理想的方法。在这项工作中,我们提出了一种有效的掩盖自动编码器预训练框架 - 基于LIDAR的3D对象检测的自动驾驶前训练框架。具体来说,我们提出了鸟类视图(BEV)指导性掩盖策略,以指导3D编码器学习功能表示BEV的角度,并避免在预训练期间使用综合解码器设计。此外,我们还可以学习一个可学习的点令牌,以维持3D编码器的一致的回收字段大小,并进行微调的遮罩云输入。基于自主驾驶场景中室外点云的属性,即,遥远对象的点云更为稀疏,我们提出了点的预测,使3D编码器能够学习位置信息,这对于对象检测至关重要。实验结果表明,BEV-MAE超过了先前的自我监管方法,并实现了有利的预训练效率。此外,基于输血-L,BEV-MAE在基于Nuscenes的基准上获得了73.6 NDS和69.6 MAP的新最先进的3D对象检测结果。源代码将在https://github.com/vdigpku/bev-mae上发布。
摘要:最近,行业对自动驾驶的需求不断增长,引起了对3D对象检测的极大兴趣,从而导致许多出色的3D对象检测算法。但是,大多数3D对象检测器仅专注于一组激光雷达点,而忽略了它们通过利用连续的激光雷达点提供的信息来提高性能的潜在能力。在本文中,我们提出了一种新颖的3D对象检测方法,称为时间运动感知3D对象检测(TM3DOD),该方法利用了时间发光剂数据。在提出的TM3DOD方法中,我们通过使用连续的BEV特征映射生成运动功能来汇总LIDAR VOXER和当前BEV特征。首先,我们提出了时间体素编码器(TVE),该编码器(TVE)通过捕获体素内的点集之间的时间关系来生成体素表示。接下来,我们设计一个运动吸引特征聚合网络(MFANET),该网络旨在通过量化两个连续的BEV特征图之间的时间变化来增强当前的BEV特征表示。通过分析BEV特征图随时间推移的差异和变化,MFANET捕获运动信息并将其集成到当前特征表示中,从而使3D对象更加可靠,更准确地检测。对Nuscenes基准数据集的实验评估表明,与基线方法相比,提出的TM3DOD方法在3D检测性能方面取得了显着改善。此外,我们的方法与最先进的方法达到了可比的性能。
摘要。直接产生原始传感器的计划结果一直是长期以来的自动驾驶解决方案,最近引起了人们的关注。大多数现有的端到端自主驾驶方法将此问题分解为感知,运动预测和计划。但是,我们认为传统的渐进式管道仍然无法全面地对整个流量演化过程进行建模,例如,自我汽车与其他交通量之间的未来相互作用以及事先的结构轨迹。在本文中,我们探索了一种新的端到端自动驾驶范式,其中关键是预测自我汽车和周围环境如何发展给给定的场景。我们提出了Genad,这是一种生成框架,将自主驱动式驱动为生成的建模问题。我们提出了一个以实例为中心的场景令牌,它首先将周围的场景转换为地图意识到的实例令牌。然后,我们采用差异自动编码器来学习结构潜在空间中的未来轨迹分布,以进行先验建模。我们进一步采用时间模型来捕获潜在空间中的代理和自我运动,以生成更有效的未来轨迹。genad最终同时通过在实例令牌的条件下并使用学习的时间模型来生成期货的学习结构潜在空间中的采样分布来同时执行运动前词和计划。在广泛使用的Nuscenes基准上进行的广泛实验表明,拟议的Genad在以高效率上实现了以视觉为中心的端到端自动驾驶的状态表现。代码:https://github.com/wzzheng/genad。
训练高准确的3D检测器需要使用7个自由度的大规模3D注释,这是既易于且耗时的。因此,提出了点符号的形式,为3D检测中的实践应用提供了重要的前景,这不仅更容易且价格便宜,而且为对象定位提供了强大的空间信息。在本文中,我们从经验中发现,仅适应其3D形式并非遇到两个主要的瓶颈是不算气的:1)它未能在模型中编码强3D,而2)它由于极端的Spars sparsity而产生了低质量的pseudo pseudo Labels。为了克服这些挑战,我们引入了Point-Detr3D,这是一个弱小的半监督3D检测的教师学生框架,旨在在限制的实例注释预算中充分利用点的监督。与点 - dive不同,该点仅通过点编码器编码3D位置信息,我们提出了一个显式的位置查询初始化策略,以增强先验性。考虑到教师模型产生的遥远区域的伪标签质量低时,我们通过通过新型的跨模式可变形ROI融合(D-ROI)结合了密集的图像数据来增强探测器的感知。此外,提出了一种创新的点指导的自我监督学习技术,即使在学生模型中,也可以完全利用点的先验。与代表性的Nuscenes数据集进行了广泛的实验,证明了我们的观点 - DETR3D与前所未有的作品相比获得了显着改善。值得注意的是,只有5%的标记数据,Point-detr3d的完全超级可见的对应物的性能超过90%。
查看,捕获车辆导航和决策的基本细节。然而,由于缺乏信息通信和对象检测的合法化,减少端到端(E2E)BEV感知潜伏期而不牺牲准确性是具有挑战性的。先前的工作要么压缩密集检测模型以减少可能损害准确性并假定图像很好地同步的计算,要么集中于最坏情况的通信延迟而不考虑对象检测的特征。为了应对这一挑战,我们提出了RT-BEV,这是旨在将消息通信和对象检测配合的第一帧工作,以改善实时E2E BEV感知而不牺牲准确性。RT-BEV的主要见解在于为了确保AV安全性的发电环境和上下文感知的感兴趣的区域(ROI),并结合Roi Awawaweawears的消息通讯。rt-bev具有ROI Aware Camera Synchronizer,该相机同步器根据ROI的覆盖范围自适应地确定消息组和允许延迟。我们还开发了一个ROI Generator来建模上下文感知的ROI和功能拆分和合并Component,以有效处理可变大小的ROI。此外,时间预测指标预测了处理ROI的时间表,并且协调员共同优化了整个E2E管道的延迟和准确性。我们已经在基于ROS的BEV感知管道中实现了RT-BEV,并使用Nuscenes数据集进行了评估。此外,RT-BEV显示可将最坏情况的E2E潜伏期减少19.3倍。rt-bev显示可显着提高实时BEV感知,使平均E2E潜伏期降低1.5倍,保持高平均平均精度(MAP),将处理的帧数增加一倍,并提高框架效率分数(FES),而不是现有方法相比。
摘要 - 随着自动驾驶的快速进步,为其感应系统配备更全面的3D感知变得至关重要。但是,广泛探索的任务(例如3D检测或点云语义分段)重点是解析对象(例如汽车和行人)或场景(例如树木和建筑物)。在这项工作中,我们建议解决基于激光雷达的全景分段的具有挑战性的任务,该任务旨在以统一的方式解析对象和场景。特别是我们提出了动态转移网络(DS-NET),该网络是Point Cloud Realm中有效的全景分割框架。ds-net具有用于复杂LIDAR点云分布的动态移位模块。我们观察到,BFS或DBSCAN(例如BFS或DBSCAN)的常用聚类算法无法处理具有非均匀点云分布和不同实例大小的复杂自主驾驶场景。因此,我们提出了一个有效的可学习聚类模块,动态转换,该模块可以随时适应内核功能。为了进一步探索时间信息,我们将单扫描处理框架扩展到其时间版本,即4D-DS-NET,以进行4D Panoptic分割的任务,其中应为多个框架提供相同的ID ID预测。我们建议以更统一的方式求解4D Panoptic分割,而不是将跟踪模块附加到DS-NET上。该代码可在https://github.com/hongfz16/ds-net上公开获取。具体而言,4D-DS-NET首先通过对齐连续的LiDAR扫描来构造4D数据量,然后在其上执行时间统一的实例聚类以获得最终结果。进行了两个大规模自动驾驶激光雷达数据集(Semantickitti和Panoptic Nuscenes)的广泛实验,以证明所提出的溶液的有效性和出色性能。
