摘要 - 自主驾驶中有效的决策依赖于其他交通代理的未来行为的准确推断。为了实现这一目标,我们提出了一个基于在线信念的行为预测模型,也提出了一个有效可观察到的马尔可夫决策过程(POMDP)的有效计划者。我们开发了一个基于变压器的预测模型,通过复发性神经记忆模型增强,以动态更新潜在信念状态并推断其他代理的意图。该模型还可以整合自我车辆的意图,以反映代理之间的闭环交互,并从离线数据和在线交互中学习。为了计划,我们采用了一个具有宏观动作的蒙特卡洛树搜索(MCT)计划者,从而通过搜索时间扩展的动作步骤来降低计算复杂性。在MCTS计划者中,我们使用预测的长期多模式轨迹来近似未来的更新,从而消除了迭代信念的更新和提高跑步效率。我们的方法还将深度Q学习(DQN)作为搜索事务,从而大大提高了MCTS计划者的性能。模拟环境的实验结果验证了我们提出的方法的有效性。在线信念更新模型可以显着提高预测的准确性和时间一致性,从而改善决策绩效。在MCT计划中,采用DQN作为搜索,大大提高了其性能,并优于基于模仿学习的先验。此外,我们表明,具有宏观动作的MCT计划在性能和效率方面大大优于香草方法。
主要关键词