以视觉为中心的3D环境理解既是VILA的,又对自动驾驶系统充满挑战。依据,无对象的方法吸引了相当大的意义。通过预测离散体素电网的语义,但无法构建连续,准确的障碍物表面,就可以感知世界。为此,在本文中,我们提议围绕着axtingsdf,以隐式预测周围图像的连续感知的签名距离场(SDF)和语义场。具体来说,我们介绍了一种基于查询的方法,并利用了由Eikonal配方构成的SDF来准确描述障碍物的表面。此外,考虑到缺乏精确的SDF地面真相,我们提出了一个新颖的SDF监督范式,被称为三明治艾科尼尔配方,强调在表面的两边都适用于正确且密集的约束,从而增强了表面上的精度。实验表明,我们的方法可以在Nuscenes数据集上用于占用预测和3D场景重建任务的SOTA。
摘要 - 在自动移动和机器人系统的感知框架内,对Lidars通常生成的3D点云的语义分析是许多应用程序的关键,例如对象检测和识别以及场景重建。场景语义分割可以通过将3D空间数据与专门的深神经网络直接整合在一起来实现。尽管这种类型的数据提供了有关周围环境的丰富几何信息,但它也提出了许多挑战:其非结构化和稀疏性质,不可预测的规模以及苛刻的计算要求。这些特征阻碍了实时半分析,尤其是在资源受限的硬件 - 构造方面,构成了许多机器人应用的主要计算组件。因此,在本文中,我们研究了各种3D语义分割方法,并分析了其对嵌入式NVIDIA JETSON平台的资源约束推断的性能和能力。我们通过标准化的培训方案和数据增强进行了公平的比较,为两个大型室外数据集提供了基准的结果:Semantickitti和Nuscenes。
摘要 - 视觉进程(VO)在自主系统中起关键作用,主要挑战是相机图像中缺乏深度信息。本文介绍了OCC-VO,这是一个新颖的框架,该框架利用了深度学习的最新范围,将2D摄像机图像转换为3D语义占用,从而规定了传统的同时估计自我姿势和地标地点的需求。在此框架内,我们利用TPV形式将环绕摄像机的图像转换为3D语义占用。解决了这种转换所带来的挑战,我们专门为姿势估计和映射算法定制,该算法结合了语义标签滤波器,动态对象滤波器,最后利用Voxel Pfilter来维护一致的全局语义映射。对OCC3D-NUSCENES的评估不仅展示了成功率提高了20.6%,并且针对ORB-SLAM3的轨迹精度提高了29.6%,而且还强调了我们构建全面地图的能力。我们的实施是开源的,可在以下网址提供:https://github.com/ustclh/occ-vo。
摘要。3 D传感是自动驾驶汽车的基本任务。其部署通常依赖于对齐的RGB摄像机和激光镜头。谨慎的同步和校准,在LiDAR投影的深度图中,系统的错位持续存在。这是由于两个传感器之间的物理基线距离所致。工件通常反映为背景激光雷达错误地投射到前景上,例如汽车和行人。KITTI数据集使用立体声摄像机作为启发式解决方案来删除工件。但是,大多数AV数据集(包括Nuscenes,Waymo和DDAD)都缺少立体声图像,使Kitti解决方案不适用。我们提出了Replay,这是一种无参数的分析解决方案,用于删除投影伪像。我们在假设的虚拟LiDAR相机和RGB摄像机之间构建了一个Binocular视觉系统。然后,我们通过使用拟议的分析溶液确定面孔闭塞来删除投影伪影。我们显示出具有无伪像的深度图的最先进(SOTA)单眼估计器和3 d对象探测器的一致改进。
摘要 - 进程和映射在自动驾驶汽车的导航中起关键作用。在本文中,我们仅使用雷达传感器来解决姿势估计和图创建的问题。我们专注于两种进程估计方法,然后是映射步骤。第一个是一种新的点ICP方法,它利用了3D雷达传感器提供的速度信息。第二个对样品数量较少的2D雷达是有利的,对于传感器被大动态障碍阻塞的场景特别有用。它利用恒定速度过滤器和测得的多普勒速度来估计车辆的自我运动。我们通过过滤步骤丰富了这一点,以提高所得地图中点的准确性。我们使用DELFT和NUSCENES数据集的视图将工作进行了测试,这些数据集涉及3D和2D雷达传感器。与现有替代方案相比,我们的发现以准确性为例,说明了我们的进程技术的状态性能。此外,我们证明,在针对相应的LIDAR图基准测试时,我们的地图过滤方法比原始未经过滤的图获得了更高的相似性率。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
尽管神经辐射场 (NeRF) 在图像新视图合成 (NVS) 方面取得了成功,但 LiDAR NVS 仍然基本上未被探索。以前的 LiDAR NVS 方法采用了与图像 NVS 方法的简单转变,同时忽略了 LiDAR 点云的动态特性和大规模重建问题。鉴于此,我们提出了 LiDAR4D,这是一个可微分的 LiDAR 专用框架,用于新颖的时空 LiDAR 视图合成。考虑到稀疏性和大规模特性,我们设计了一种结合多平面和网格特征的 4D 混合表示,以由粗到细的方式实现有效重建。此外,我们引入了从点云衍生的几何约束来提高时间一致性。对于 LiDAR 点云的真实合成,我们结合了光线丢弃概率的全局优化来保留跨区域模式。在 KITTI-360 和 NuScenes 数据集上进行的大量实验证明了我们的方法在实现几何感知和时间一致的动态重建方面具有优越性。代码可在 https://github.com/ispc-lab/LiDAR4D 获得。
自主驾驶是一项复杂而具有挑战性的任务,旨在通过场景和推理来实现安全的运动计划。最近,通过增强的场景理解,几个关键问题,包括缺乏推理,低概括性能和长尾场景,但仍需要戴着几个关键问题,但仍需要进行一些关键问题。在本文中,我们提出了VLP,这是一个新颖的视力 - 语言规划框架,利用语言模式来弥合语言理解与自动驾驶之间的差距。VLP通过加强源内存基础和自动驾驶汽车的上下文理解来增强自主驾驶系统。vlp通过与先前的最佳方法相比,分别在平均L2错误和碰撞率方面,分别在平均L2错误和碰撞率方面实现了35.9%和60.5%的端到端规划表演。此外,在面对新的城市环境时,VLP在挑战性的长尾方案和强大的概括能力方面表现出改善的性能。
摘要。复杂的交通环境和各种天气条件使LIDAR数据的收集昂贵且具有挑战性。需要实现高质量和可控的LiDAR数据生成,使用文本是一种常见的做法,但是在该领域几乎没有研究。为此,我们提出了Text2Lidar,这是第一个高效,多样和可控制的LiDAR数据生成模型。具体来说,我们设计了一个等应角变压器体系结构,利用设计的等齿注意力以具有数据特征的方式捕获LiDAR特征。然后,我们设计了一个控制信号嵌入式注射器,以通过全局至中心的注意机制有效地整合控制信号。此外,我们设计了一个频率调节器,以帮助该模型恢复高频降低,以确保生成的点云的清晰度。为了促进现场发展并优化了文本控制的生成性能,我们构建了Nulidartext,为850个场景提供了34,149 LIDAR点云的不同文本描述符。在Kitti-360和Nuscenes数据集中以各种形式进行了不受控制的文本控制生成实验,证明了我们方法的优越性。可以在https://github.com/wuyang98/text2lidar
最近基于激光雷达的 3D 物体检测 (3DOD) 方法显示出良好的效果,但它们通常不能很好地推广到源(或训练)数据分布之外的目标域。为了减少这种领域差距,从而使 3DOD 模型更具泛化能力,我们引入了一种新颖的无监督领域自适应 (UDA) 方法,称为 CMDA,它 (i) 利用来自图像模态(即相机图像)的视觉语义线索作为有效的语义桥梁,以缩小跨模态鸟瞰图 (BEV) 表示中的领域差距。此外,(ii) 我们还引入了一种基于自训练的学习策略,其中模型经过对抗性训练以生成领域不变特征,这会破坏对特征实例是来自源域还是看不见的目标域的区分。总的来说,我们的 CMDA 框架指导 3DOD 模型为新颖的数据分布生成高度信息丰富且领域自适应的特征。在我们对 nuScenes、Waymo 和 KITTI 等大规模基准进行的大量实验中,上述内容为 UDA 任务提供了显著的性能提升,实现了最先进的性能。