摘要 - 运动计划对于复杂的城市环境中的安全导航至关重要。从历史上看,运动策划者(MPS)已通过像卡拉这样的程序生成的模拟者进行了评估。但是,这种综合基准不会捕获现实世界的多代理相互作用。最近发布的MP基准标准 NUPLAN通过使用闭环仿真逻辑来增强现实世界驱动日志来解决此限制,从而有效地将固定的数据集变成了反应性模拟器。 我们分析了Nuplan记录的日志的特征,并发现每个城市都有其独特的驾驶行为,这表明健壮的计划者必须适应不同的环境。 我们学会用行为者(GravieNet)模拟这种独特的行为,该行为是一种图形卷积神经网络(GCNN),该卷积神经网络(GCNN)使用来自最近观察到的试剂历史的特征来预测反应性剂行为;从直觉上讲,一些侵略性的特工可能会导致铅车辆,而另一些则可能不会。 为了建模这种现象,cavenyet预测了代理运动控制器的参数,而不是直接预测其时空轨迹(就像大多数预报符一样)。 最后,我们提出了基于模型预测控制(MPC)计划者的AdapTivedRiver,该计划者展开了以行为网的预测为条件的不同世界模型。 我们的广泛实验表明,AdaptivedRiver在NUPLAN闭环计划基准上取得了最先进的结果,在14个硬式R-CLS上对先前的工作提高了2%,即使对从未见过的城市进行评估时也可以概括。NUPLAN通过使用闭环仿真逻辑来增强现实世界驱动日志来解决此限制,从而有效地将固定的数据集变成了反应性模拟器。我们分析了Nuplan记录的日志的特征,并发现每个城市都有其独特的驾驶行为,这表明健壮的计划者必须适应不同的环境。我们学会用行为者(GravieNet)模拟这种独特的行为,该行为是一种图形卷积神经网络(GCNN),该卷积神经网络(GCNN)使用来自最近观察到的试剂历史的特征来预测反应性剂行为;从直觉上讲,一些侵略性的特工可能会导致铅车辆,而另一些则可能不会。为了建模这种现象,cavenyet预测了代理运动控制器的参数,而不是直接预测其时空轨迹(就像大多数预报符一样)。最后,我们提出了基于模型预测控制(MPC)计划者的AdapTivedRiver,该计划者展开了以行为网的预测为条件的不同世界模型。我们的广泛实验表明,AdaptivedRiver在NUPLAN闭环计划基准上取得了最先进的结果,在14个硬式R-CLS上对先前的工作提高了2%,即使对从未见过的城市进行评估时也可以概括。
扩散模型在建模复合物和多模态轨迹分布方面表现出色,以进行决策和控制。最近提出了奖励级别指导的denoising,以生成轨迹,从而最大程度地提高了可差异的奖励函数,又是扩散模型捕获的数据分布下的可能性。奖励级别指导的denoisising需要适合清洁和噪声样本的可区分奖励功能,从而限制了其作为一般轨迹优化器的应用。在本文中,我们提出了扩散-ES,一种将无梯度优化与轨迹deNoising结合起来的方法,以优化黑框非差异性目标,同时留在数据管理中。扩散-ES样品在进化过程中的轨迹 - 从扩散模型中搜索,并使用黑框奖励函数得分。它使用截断的扩散过程突变高得分轨迹,该过程应用了少量的no弱和降解步骤,从而可以更有效地探索解决方案空间。我们表明,扩散-ES在Nuplan上实现了最先进的表现,Nuplan是一个已建立的闭环计划基准,用于自动驾驶。扩散-ES的表现优于现有的基于抽样的计划者,反应性确定性或基于扩散的策略以及奖励梯度指导。此外,我们表明,与先前的指导方法不同,我们的方法可以优化由少数弹药LLM提示产生的非差异性语言形状奖励功能。这使我们能够解决最困难的NUPLAN场景,这些方案超出了现有的传统优化方法和驾驶策略的能力。在以遵循指示的人类老师的指导下,我们的方法可以产生新颖的,高度复杂的行为,例如训练数据中不存在的积极的车道编织。1
摘要 - 自主驾驶需要能够推理交通代理之间未来互动的能力,并对计划进行明智的评估。本文介绍了Gen-Drive框架,该框架从传统预测和确定性计划框架转变为一代人,然后评估计划范式。该框架采用行为扩散模型作为场景生成器来产生各种可能的未来情况,从而增强了联合交互推理的能力。为了促进决策,我们提出了一个场景评估者(奖励)模型,该模型通过通过VLM援助收集的成对偏好数据训练,从而降低了人类的工作量和增强可扩展性。此外,我们还利用RL微调框架来提高扩散模型的发电质量,从而使其更有效地计划任务。我们对NUPLAN数据集进行了培训和闭环计划测试,结果表明,采用这种生成时代评估策略的表现优于其他基于学习的APCARCHES。此外,微调的生成驾驶政策显示出计划绩效的显着增强。我们进一步证明,与依靠人类设计的奖励相比,利用我们学习的奖励模型进行评估或RL微调导致了更好的计划绩效。项目网站:https://mczhi.github.io/gendrive。
摘要 - 运动预测和成本评估是自主性自治决策系统中的重要组成部分。但是,现有方法通常忽略成本学习的重要性,而将其视为单独的模块。在这项研究中,我们采用了树结构的政策计划者,并为自我条件的预测和成本模型提出了一个不同的联合培训框架,从而直接改善了最终计划绩效。对于条件预测,我们引入了一个以查询为中心的变压器模型,该模型执行有效的自我条件运动预测。对于计划成本,我们提出了具有潜在互动功能的可学习的上下文感知成本功能,从而促进了可区分的联合学习。我们使用现实世界的NUPLAN数据集及其相关的计划测试平台验证了我们提出的方法。我们的框架不仅与最先进的计划方法匹配,而且在计划质量方面的其他基于学习的方法优于其他基于学习的方法,同时在运行时更有效地运行。我们表明,联合培训比对两个模块的单独培训的性能要好得多。此外,我们发现树结构化的策略规划表现优于传统的单阶段计划方法。代码可用:https://github.com/mczhi/dtpp。
计划-QA我们通过零射方法评估了Llama2-13b [4]的功能,并发现其广泛的培训数据为交通规则理解提供了坚实的基础。然而,其有限的数学实力在抓住和推论内结构和数值表达之间的连接方面构成了挑战。为了解决这个问题,我们介绍了一个基于语言的QA数据集,旨在将LLM从通用模型转换为熟练于自主驾驶计划的专业模型。这种增强的重点是完善其在教学解释和推理中的能力。Concretely, we delineated the level of autonomous driving planning into three granularities: 1) high-level instructions: formulated through velocity commands including stop , accelerate , decelerate , maintain speed , and routing commands including turn left , turn right , go straight , 2) control: assessing the values of ve- locity and acceleration, 3) and waypoint: encompassing a series of points.设计了六种问题类型是为了阐明高级指令(控制 - 航路点频谱)之间的过渡关系,并根据NUPLAN [1]的日志数据对每个QA -PAIR进行调整。图s1a说明了通用系统提示模板适用于所有问题,而图s1b-s1g在系统提示中替换每个问题类型的特定示例,并在其各自的答案中替换<问题>和。
摘要 - 车辆运动计划是自动驾驶技术的重要组成部分。当前基于规则的车辆运动计划方法在常见的情况下令人满意地表现出色,但努力将其推广到长尾情况。同时,基于学习的方法尚未在大规模闭环场景中实现优于基于规则的方法的优越性能。为了解决这些问题,我们提出了基于多模式大语言模型(MLLM)的第一个中高中计划系统。mllm被用作认知剂,将类似人类的知识,解释性和常识推理引入闭环计划中。具体来说,Plana-Gent通过三个核心模块利用了MLLM的力量。首先,环境变换模块构建了鸟类视图(BEV)地图和从环境中作为输入的基于车道的文本描述。第二,推理引擎模块从场景理解到侧面和纵向运动指令中引入了一个分层的思想,最终导致计划器代码生成。最后,集成了一个反射模块,以模拟和评估生成的计划者,以降低MLLM的不确定性。Planagent具有MLLM的常识推理和概括能力,这使其有效地应对常见和复杂的长尾方案。我们提出的Planagent对大规模和具有挑战性的NUPLAN基准进行了评估。全面的实验集令人信服地表明,Planigent在闭环运动计划任务中的表现优于现有的最新面积。代码将很快发布。