摘要 - 强化学习方法表明,在无人系统中解决具有挑战性的方案的问题。然而,在高度复杂的环境中解决长期决策序列,例如在密集的情况下的连续车道变化和超车仍然具有挑战性。尽管现有的无人车系统取得了长足的进步,但最大程度地降低了驱动风险是第一个考虑。风险意识的强化学习对于解决潜在的驾驶风险至关重要。但是,在无人车辆中应用的现有强化学习算法并未考虑多种风险来源带来的风险的可变性。基于上述分析,本研究提出了一种具有风险感知的加强学习方法,并通过驱动任务分解,以最大程度地减少各种来源的风险。特别是,构建了风险潜在领域,并结合了强化学习以分解驾驶任务。建议的强化学习框架使用不同的风险分支网络来学习驾驶任务。此外,提出了针对不同风险分支的低风险发作抽样方法来解决高质量样本的短缺并进一步提高采样效率。此外,采用了一种干预培训策略,其中人工电位场(APF)与增强学习相结合以加快训练并进一步确保安全。最后,提出了完整的干预风险分类双胞胎延迟的深层确定性政策梯度任务分解(IDRCTD3-TD)算法。两个具有不同困难的场景旨在验证该框架的优越性。结果表明,所提出的框架在性能方面具有显着改善。
主要关键词