中央服务器。中央服务器然后从这些数据中学习,并指示代理如何在特定情况下采取行动。昏迷(反事实多代理策略梯度)是一种使用CTDE方法设计的算法[3]。使用CTDE结构的另一种算法是QMIX [4]。QMIX结合了单个代理商的回报,以创造全部奖励,以最大程度地提高这种全部奖励。在此过程中,QMIX学习了如何控制每个代理以有效地为整体奖励增加做出贡献。另一方面,顾名思义,Commnet [5]引起了自己的通信神经网络,允许每个代理人直接与其他代理人共享信息。促进合作的另一种方法是在团体奖励和个人奖励之间建立联系。liir(学习个人的内在奖励)提出了一个学习个人奖励的神经网络,鼓励每个代理人自愿为整体群体奖励做出贡献[6]。
摘要 - 增强学习(RL)在通过州行动 - 奖励反馈循环中优化多车合作驾驶策略的巨大潜力,但它仍然面临着诸如低样本效率之类的挑战。本文提出了一种基于稳态过渡系统的差异奖励方法,该方法通过分析交通流量特征将国家过渡梯度信息纳入奖励设计中,旨在优化多车辆合作决策中的行动选择和政策学习。在不同的自动驾驶汽车渗透率下,在RL算法(例如Mappo,MADQN和QMIX)中验证了所提出的方法的性能。结果表明,在交通效率,安全性和行动合理性方面,差异化奖励方法显着加速了培训的融合,并优于核心奖励和其他方面的奖励。此外,该方法表现出强大的可扩展性和环境适应性,为在复杂的交通情况下制定多机构合作决策提供了一种新颖的方法。