MTR++,在评估和响应其他道路使用者的行为方面,它可以提高自动驾驶汽车的训练效率。研究人员已经在 Waymo 的运动预测挑战赛中获得两个第一名 - 在这个竞赛中,不同的人工智能系统在相同的数据集上进行训练,然后比较它们的预测。例如,如果几辆车从不同的方向接近路口,那么哪辆车会在何时转向哪个方向,以及车辆究竟会走哪条路,都存在着多种可能性。“在这种情况下,每个司机都与下一个司机有关系,并影响他们的行为,”Schiele 说。“为了训练系统,我们使用了 Transformer 模型,其功能类似于大型语言模型的模型。”
自动驾驶领域的竞争非常激烈,丰田汽车等传统汽车巨头与亚马逊等科技巨头展开了激烈的竞争。Alphabet、通用汽车和百度等公司的战略举措加剧了竞争。百度已经启动了一个名为 Apollo 的特殊自动驾驶项目,而 Alphabet 和通用汽车分别收购了专门的自动驾驶公司 Waymo 和 Cruise。所有这些参与者都已在某些地区开展商业无人驾驶出租车业务,这表明它们已经达到了发展水平。1 汽车专业知识和技术智能的结合加剧了创新竞赛,形成了一个专利成为强大货币的生态系统。专利格局涵盖了各种各样的发明,表明该行业的保护措施既强大又广泛。
智能运输系统(ITS)是一种多系统结构,结合了管理,控制,信息收集和驱动系统,必须完全关联并同步才能实现整个系统的目标。它代表了信息和通信技术(ICT)的集成和应用,目的是通过实现未来的自动驾驶[1-2]来提高道路安全性,交通流量效率并增强通勤经验。学术团体和一些工业汽车制造商(例如特斯拉和Waymo Company)在技术上准备提供完全自主驾驶。在未来几年中,自动驾驶汽车设想有深远的申请,而不仅仅是将人们从一个位置派往另一个位置[3]。半自动驾驶到完全自主驾驶之间的软过渡是普遍的,在此过程中,高级驾驶员援助系统(ADAS)中的控制能力在此过渡过程中起着非常重要的作用。
3D语义分割是驱动感知中最关键的任务之一。基于学习的模型准确感知密集的3D周围环境的能力通常可以确保自动驾驶汽车的安全操作。但是,基于激光雷达的3D语义分割数据库由依次获得的激光扫描组成,这些激光扫描是长尾且缺乏训练多样性的。在本报告中,我们引入了MixSeg3d,这是强度点云分割模型与先进的3D数据混合策略的复杂组合。具体来说,我们的方法将Minkunet家族与Lasermix和Polarmix集成在一起,这是两种场景 - 比例扩展方法,这些方法将LIDAR点沿Ego-Scene的倾斜度和方位角融合在一起。通过经验实验,我们证明了MixSeg3d在基线和先前的艺术中的优越性。我们的团队在2024 Waymo Open数据集挑战赛的3D语义Segmen track中获得了第二名。
ai或人工智能是对人类智能的模拟,这些机器被编程为像人类一样思考和学习的机器。这些系统可以执行解决问题,决策和理解语言,该语言在当今的各个领域都广泛使用。Siri,Google Assistant和Amazon Alexa等虚拟个人助理使用AI使用自然语言处理和机器学习来理解和响应用户命令。自动驾驶汽车,包括特斯拉,Waymo和Uber等公司的自动驾驶汽车和无人机,使用AI处理感官数据并做出实时驾驶决策。在医疗保健中,AI有助于分析医疗数据以诊断疾病和计划治疗,并使用IBM的Watson Health和Google的DeepMind之类的平台领先。Netflix,Amazon和Spotify等平台上的建议系统使用AI通过分析用户行为和偏好来提供个性化建议。此外,金融机构使用AI通过分析交易模式实时检测欺诈活动。
多机构学习算法已经成功地在各种游戏中生成超人计划,但对部署的多代理计划者的设计影响有限。将这些技术应用于多代理计划的关键瓶颈是它们需要数十亿个经验步骤。为了启用大规模的多代理计划研究,我们提出了Gpudrive。gpudrive是一种gpu加速的多代理模拟器,构建在Madrona游戏引擎顶部,能够每秒产生超过一百万个模拟步骤。的访问,奖励和动态功能直接写在C ++中,允许用户定义降低到高性能CUDA的复杂的,异质的代理行为。尽管进行了这些低级优化,但通过Python可以完全访问Gpudrive,为多代理,闭环模拟提供了无缝且有效的工作流程。使用Gpudrive,我们在Waymo Open Motion数据集上训练加固学习剂,在几分钟内实现有效的目标,并在数小时内扩展到数千个场景。我们在
物体检测是计算机视觉系统中的一项关键任务,广泛应用于自动驾驶、医学成像、零售、安全、人脸识别、机器人等领域。如今,基于神经网络的模型用于定位和分类特定类别的物体实例。当不需要实时推理时,模型集成有助于获得更好的结果。在这项工作中,我们提出了一种组合物体检测模型预测的新方法:加权框融合。我们的算法利用所有提出的边界框的置信度得分来构建平均框。我们在多个数据集上测试了该方法,并在 Open Images 和 COCO 物体检测赛道的背景下对其进行了评估,在这些挑战中取得了最高成绩。Waymo Open Dataset 和 Lyft 自动驾驶汽车 3D 物体检测挑战赛的获胜团队成功应用了 3D 版本的框融合。源代码可在 https://github.com/ZFTurbo/Weighted-Boxes-Fusion 上公开获取。
摘要。3 D传感是自动驾驶汽车的基本任务。其部署通常依赖于对齐的RGB摄像机和激光镜头。谨慎的同步和校准,在LiDAR投影的深度图中,系统的错位持续存在。这是由于两个传感器之间的物理基线距离所致。工件通常反映为背景激光雷达错误地投射到前景上,例如汽车和行人。KITTI数据集使用立体声摄像机作为启发式解决方案来删除工件。但是,大多数AV数据集(包括Nuscenes,Waymo和DDAD)都缺少立体声图像,使Kitti解决方案不适用。我们提出了Replay,这是一种无参数的分析解决方案,用于删除投影伪像。我们在假设的虚拟LiDAR相机和RGB摄像机之间构建了一个Binocular视觉系统。然后,我们通过使用拟议的分析溶液确定面孔闭塞来删除投影伪影。我们显示出具有无伪像的深度图的最先进(SOTA)单眼估计器和3 d对象探测器的一致改进。
摘要 - 自主驾驶的基于深度学习的轨迹预测模型通常会在概括到分布(OOD)方案的概括中遇到困难,有时表现比简单的基于规则的模型差。为了解决这一限制,我们提出了一个新颖的框架,自适应预测集合(APE),该集合整合了深度学习和基于规则的预测专家。学习的路由功能,与深度学习模型同时训练,根据输入方案动态选择最可靠的预测。我们在大规模数据集上进行的实验,包括Waymo Open Motion Datat(WOMD)和Argoverse,证明了整个数据集的零射击概括的改进。我们表明,我们的方法的表现优于单个预测模型和其他变体,尤其是在具有很高比例的OOD数据的长音预测和场景中。这项工作强调了混合方法在自主驾驶中进行鲁棒和可推广的运动预测的潜力。更多详细信息可以在项目页面上找到:https://sites.google.com/view/ ape-generalization。
对端到端高清地图的回顾重新分配驾驶时间,减少能源浪费。 但是,实现4级和5级自主驾驶仍然对学术界和工业界仍然是一个重大挑战。 在自主驾驶的各种模块中,高清(HD)地图已成为一个关键组件,因为它们在地图元素中的高精度,可以准确定位,场景解释,导航,车辆控制,车辆控制和运动预测周围物体的轨迹。 几个地图提供商,包括Tomtom,Waymo和Nvidia,为其特定目的创建高清地图。 但是,大多数高清地图数据集并非公开可用于研究HD MAP生成的当前趋势。 此外,有关HD MAP生成的最新调查论文倾向于仅关注特定方面,例如道路拓扑或边界提取,而不是考虑总体端到端HD MAP生成过程。 因此,我们从高清图的简短定义,标准和功能开始,然后探索不同类型的HD地图,包括离线和在线变体,突出了它们各自的优势和缺点。 1。 简介对端到端高清地图的回顾重新分配驾驶时间,减少能源浪费。但是,实现4级和5级自主驾驶仍然对学术界和工业界仍然是一个重大挑战。在自主驾驶的各种模块中,高清(HD)地图已成为一个关键组件,因为它们在地图元素中的高精度,可以准确定位,场景解释,导航,车辆控制,车辆控制和运动预测周围物体的轨迹。几个地图提供商,包括Tomtom,Waymo和Nvidia,为其特定目的创建高清地图。但是,大多数高清地图数据集并非公开可用于研究HD MAP生成的当前趋势。此外,有关HD MAP生成的最新调查论文倾向于仅关注特定方面,例如道路拓扑或边界提取,而不是考虑总体端到端HD MAP生成过程。因此,我们从高清图的简短定义,标准和功能开始,然后探索不同类型的HD地图,包括离线和在线变体,突出了它们各自的优势和缺点。1。简介最后,我们将讨论最新的端到端HD MAP生成体系结构,以及各种类型的开源HD地图数据集并比较其性能。