摘要 - 对象检测是自动驾驶汽车和高级驾驶员辅助系统(ADA)的重要感知任务。虽然已经对相机图像中的对象检测进行了广泛的研究,但通过光检测和范围(LIDAR)数据来解决此任务,这是由于其固有的稀疏性带来了独特的挑战。这项研究引入了一种基于激光雷达的对象检测的开创性方法,其中Lidar Point Cloud数据巧妙地转换为伪RGB图像格式,随后将最初用于基于相机的对象检测设计的Yolov8网络。在Kitti数据集中受过训练和严格评估,我们的方法表现出出色的性能,达到了令人印象深刻的平均平均精度(MAP)超过86%。该模型还在Tihan IITH iith自主导航数据集(TIAND)的某个点云上进行了测试。这个了不起的结果强调了拟议方法在利用LiDAR数据以进行健壮对象检测时的效率,从而有助于在自主驾驶和ADAS应用中提高感知能力。索引项 - Yolov8,点云,BEV,LIDAR,对象检测,ADAS
现有的基于LIDAR的3D对象检测方法主要采用从划线范式进行训练。不幸的是,这种范式在很大程度上重新确定了大规模标记的数据,其收集可以充分陈述且耗时。自我监管的预训练是一种减轻这种依赖对广泛注释数据的有效且理想的方法。在这项工作中,我们提出了一种有效的掩盖自动编码器预训练框架 - 基于LIDAR的3D对象检测的自动驾驶前训练框架。具体来说,我们提出了鸟类视图(BEV)指导性掩盖策略,以指导3D编码器学习功能表示BEV的角度,并避免在预训练期间使用综合解码器设计。此外,我们还可以学习一个可学习的点令牌,以维持3D编码器的一致的回收字段大小,并进行微调的遮罩云输入。基于自主驾驶场景中室外点云的属性,即,遥远对象的点云更为稀疏,我们提出了点的预测,使3D编码器能够学习位置信息,这对于对象检测至关重要。实验结果表明,BEV-MAE超过了先前的自我监管方法,并实现了有利的预训练效率。此外,基于输血-L,BEV-MAE在基于Nuscenes的基准上获得了73.6 NDS和69.6 MAP的新最先进的3D对象检测结果。源代码将在https://github.com/vdigpku/bev-mae上发布。
点云完成指的是从部分3D点云中完成3D形状是3D点云分析任务的基本问题。从深度神经网络的发展中受益,对点云完成的研究近年来取得了长足的进步。ever,如现有方法所涉及的明确局部区域分区使它们对点云的密度分布敏感。此外,它提供有限的接收场,可防止从远程上下文信息中捕获功能。为了解决问题,我们利用交叉注意和自我注意力的机制来设计新型的神经网络,以通过隐式局部区域分区完成点云完成。提出了两个基本单元的几何细节(GDP)和自我功能增强(SFA),以通过注意机制以简单而有效的方式直接建立点之间的结构关系。然后,基于GDP和SFA,我们构建了一个新框架,该框架使用流行的编码器架构进行点云组合。所提出的框架,即Pointattn,是模拟的,整洁而有效的,可以精确捕获3D形状的结构信息,并以详细的几何形状预测完整的点云。实验结果表明,我们的PointAttn在多个具有挑战性的基准上优于最先进的方法。代码可在以下网址找到:https://github.com/ohhhyeahhhh/pointattn
带有LIDAR点云的3D单一对象跟踪(SOT)的任务对于各种应用程序(例如Au au sosos驱动器和机器人)至关重要。但是,现有方法主要依赖于外观匹配或仅在两个连续的框架内进行匹配或运动模拟,从而俯瞰3D空间中对象的远程连续运动属性。为了解决这个问题,本文提出了一个新颖的信息,将每个曲目视为连续的流:在每个时间戳上,只有当前框架被馈入网络工作,以与存储在存储库中的多帧历史特征进行交互,从而有效利用了序列信息的有效利用。为了实现有效的跨帧消息传递,混合注意机制旨在说明远程关系建模和局部几何特征提取。此外,为了增强多帧特征的利用来进行健壮的跟踪,提出了一种对比性的增强策略,该策略使用地面真相轨迹来增强训练序列并促进对比方式的歧视误差。广泛的实验表明,所提出的方法在多个基准上通过重要的婚姻优于最先进的方法。
摘要 - 移动自主权依赖于动态环境的精确感知。在3D世界中强有力地跟踪移动对象,因此在诸如Trajectory预测,避免障碍和路径计划之类的应用中起着关键作用。虽然大多数当前方法利用激光镜或摄像机进行多个对象跟踪(MOT),但4D成像雷达的功能仍未得到探索。认识到4D雷达数据中雷达噪声和点稀疏所带来的挑战,我们引入了Ratrack,这是一种针对基于雷达的轨道量身定制的创新解决方案。绕过对特定对象类型和3D边界框的典型依赖,我们的方法着重于运动分割和聚类,并由运动估计模块丰富。评估在“视图”数据集中,ratrack展示了移动对象的卓越跟踪精度,在很大程度上超过了最新技术的性能。我们在https://github.com/ljacksonpan/ratrack上发布代码和模型。
在这项研究中,使用了JETNET [21]数据集。每个数据集都包含Pythia [22]的射流,其能量约为1 TEV,每个射流包含多达30或150个成分(此处:30)。数据集在喷气发射的parton中。在这里,研究了顶级夸克,轻夸克和Gluon发射的喷气机的数据集[23,24]。每个数据集包含约170k个单独的喷气机分为110K / 10K / 50K用于培训 /测试 /验证,其中验证数据集用于我们的结果。射流成分,颗粒,用r = 0的圆锥半径聚类。8。这些颗粒被认为是无质量的,因此可以用它们的3-momenta或横向动量p t,伪t,伪质η和方位角角度描述。在JetNet数据集中,这些变量相对于喷气动量给出:ηrel Ibηi -ηi -η射流,ϕ rel i b ϕ i-(ϕ射流mod2π)和p rel t,i b p p t,i b p t,i / p t,i / p t,i / p t,jet,jet,i在喷气机中im ime im impoy im im ot a Jet中的粒子。计算这些相对数量的不变质量,例如,对于喷气质量,意味着m rel = m jet / p t,jet。Jetnet库[25]提供了本研究中使用的几个指标。此外,作者还提供了一个称为MPGAN [26]的基线模型。该数据集已在粒子物理社区中广受欢迎,作为基于PC的生成模型的基准[15-17,27-34]。
[dbscan] Ester等。:“一种基于密度的算法,用于在具有噪声的大空间数据库中发现簇”。:KDD,1996年。[DGCNN] Wang等。:“用于在点云上学习的动态图CNN”。in :( tog),2019年。[Kabsch] W. Kabsch:“解决两组向量的最佳旋转解决方案”。in:晶体物理学,衍射,理论和一般晶体学,1976年。[Hregnet] Lu等。:“ Hregnet:用于大规模室外激光点云注册的分层网络”。in:(iccv),2021。[Randla-net] Hu等。:“ randla-net:大规模点云的有效语义分割”。in:(cvpr),2020。[Stereokitti] Menze等。:“自动驾驶汽车的对象场景流”。in:(cvpr),2015年。[Lidarkitti] Geiger等。:“我们准备好进行自动驾驶了吗?Kitti Vision基准套件”。in:(cvpr),2012年。[Semkitti] Behley等。:“ Semantickitti:用于LIDAR序列的语义场景的数据集”。in:(ICCV),2019年。[FT3DS] Mayer等。:“一个大型数据集来训练卷积网络以差异,光流和场景流量估计”。in:(cvpr),2016年。[pointpwc-net] Wu等。:“ PointPWC-NET:(自我监督场景流估计)点云上的成本量”。在:(ECCV),2020年。[FlowStep3d] Kittenplon等。:“ FlowStep3d:自我监督场景流估计的模型展开”。in:(cvpr),2021。[RMS-FLOWNET] Battrawy等。:“ RMS-FLOWNET:大规模点云的高效且稳健的多尺度场景流程估计”。in:(icra),2022。[WM3D] Wang等。:“对于3D场景流网络重要的东西”。in:(ECCV),2022。[Bi-Pointflownet] W. Cheng和J. Hwan Ko:“基于点云的场景流估计的双向学习”。in:(ECCV),2022。[Chodosh等人]Chodosh等。:“重新评估激光雷达场景以进行自动驾驶”。in:arxiv,2023。[WSLR] Gojcic等人。:“严格3D场景流的弱监督学习”。in:(cvpr),2021。[ERC] Dong等。 :“利用震子场景流量估计的刚性约束”。 in:(cvpr),2022。[ERC] Dong等。:“利用震子场景流量估计的刚性约束”。in:(cvpr),2022。
1。摘要.............................................................................................................................................................................................................................................................................................................................................................................................................................................................................
现有的学习 3D 表示的方法是在经典硬件上训练和测试的深度神经网络。尽管理论上预测了量子机器学习架构在速度和表示容量方面的优势,但迄今为止,它还没有被考虑用于这个问题,也没有被考虑用于一般涉及 3D 数据的任务。因此,本文介绍了第一个用于 3D 点云的量子自动编码器。我们的 3D-QAE 方法是完全量子的,即其所有数据处理组件都是为量子硬件设计的。它在 3D 点云集合上进行训练以生成它们的压缩表示。除了找到合适的架构之外,设计这种完全量子模型的核心挑战还包括 3D 数据规范化和参数优化,我们为这两个任务提出了解决方案。在基于模拟门的量子硬件上的实验表明,我们的方法优于简单的经典基线,为 3D 计算机视觉的新研究方向铺平了道路。源代码可在 https://4dqv.mpi-inf.mpg.de/QAE3D/ 获得。
摘要 - 通常在临床实践中使用的心脏功能的全球单值生物标志物,例如射血分数,提供了对真实3D心脏变形过程的有限见解,因此限制了对健康和病理心脏力学的理解。在这项工作中,我们提出了点云变形网络(PCD-NET),作为一种新型的几何深度学习方法,用于模型3D心脏收缩和心脏周期的极端之间的放松。它在基于点云的深度学习中采用了最新的进步,成为编码器解码器的编码器结构,以实现有效的多尺度特征学习,直接在心脏解剖的多级3D点云表示上。我们在英国生物银行研究的10,000多个案例的大数据集上评估了我们的方法,并在基本图像获取的像素分辨率下方的预测和地面真相解剖结构之间找到平均的倒角差异。此外,我们观察到了预测和地面真理人群之间的类似临床指标,并表明PCD-NET可以成功捕获正常受试者和肌肉拨动梗塞(MI)患者之间的亚群特异性差异。然后,我们证明,在接收器操作特征曲线下,学到的3D变形模式在接收器操作特征曲线下,在Harrell的一致性INDEX进行MI生存分析方面,在接收器操作特征曲线下的面积优于13%和7%。