摘要行为决策子系统是自动驾驶系统的关键组成部分,它反映了车辆和驾驶员的决策能力,并且是车辆高级智能的重要象征。但是,现有的基于规则的决策计划受设计师的先验知识的限制,并且很难应对复杂而可变的交通情况。在这项工作中,采用了先进的深度强化学习模型,该模型可以自主学习和优化复杂且可更改的交通环境中的驾驶策略,通过将驾驶决策过程建模为强化学习问题。具体来说,我们使用了深Q-NETWORK(DQN)和近端策略优化(PPO)进行比较实验。DQN通过近似国家行动值函数来指导代理商选择最佳动作,而PPO通过优化策略功能来提高决策质量。我们还介绍了奖励功能的设计改进,以促进在现实世界驾驶情况下模型的鲁棒性和适应性。实验结果表明,在各种驾驶任务中,基于深入强化学习的决策策略比传统的基于规则的方法具有更好的性能。
主要关键词
![arxiv:2401.08687v2 [CS.CV] 2024年8月13日PDF文件第1页](/bimg/1/1f7cd760212a21ec664f6a9877d533f806ea709c.webp)
![arxiv:2401.08687v2 [CS.CV] 2024年8月13日PDF文件第2页](/bimg/1/1e31c83fe4a1e82f30be39e467d976d43ae868bb.webp)
![arxiv:2401.08687v2 [CS.CV] 2024年8月13日PDF文件第3页](/bimg/d/def698af5e28f11a93f3974e03efb9e5f0366b2e.webp)
![arxiv:2401.08687v2 [CS.CV] 2024年8月13日PDF文件第4页](/bimg/6/6fb9fde7fc5dac8f8f420fb21c89dad77151ef0b.webp)
![arxiv:2401.08687v2 [CS.CV] 2024年8月13日PDF文件第5页](/bimg/b/bdfcc6120d0b50f7b88ad81c9774d1953c396c8b.webp)
