摘要 - 车辆运动计划是自动驾驶技术的重要组成部分。当前基于规则的车辆运动计划方法在常见的情况下令人满意地表现出色,但努力将其推广到长尾情况。同时,基于学习的方法尚未在大规模闭环场景中实现优于基于规则的方法的优越性能。为了解决这些问题,我们提出了基于多模式大语言模型(MLLM)的第一个中高中计划系统。mllm被用作认知剂,将类似人类的知识,解释性和常识推理引入闭环计划中。具体来说,Plana-Gent通过三个核心模块利用了MLLM的力量。首先,环境变换模块构建了鸟类视图(BEV)地图和从环境中作为输入的基于车道的文本描述。第二,推理引擎模块从场景理解到侧面和纵向运动指令中引入了一个分层的思想,最终导致计划器代码生成。最后,集成了一个反射模块,以模拟和评估生成的计划者,以降低MLLM的不确定性。Planagent具有MLLM的常识推理和概括能力,这使其有效地应对常见和复杂的长尾方案。我们提出的Planagent对大规模和具有挑战性的NUPLAN基准进行了评估。全面的实验集令人信服地表明,Planigent在闭环运动计划任务中的表现优于现有的最新面积。代码将很快发布。
主要关键词