中央服务器。中央服务器然后从这些数据中学习,并指示代理如何在特定情况下采取行动。昏迷(反事实多代理策略梯度)是一种使用CTDE方法设计的算法[3]。使用CTDE结构的另一种算法是QMIX [4]。QMIX结合了单个代理商的回报,以创造全部奖励,以最大程度地提高这种全部奖励。在此过程中,QMIX学习了如何控制每个代理以有效地为整体奖励增加做出贡献。另一方面,顾名思义,Commnet [5]引起了自己的通信神经网络,允许每个代理人直接与其他代理人共享信息。促进合作的另一种方法是在团体奖励和个人奖励之间建立联系。liir(学习个人的内在奖励)提出了一个学习个人奖励的神经网络,鼓励每个代理人自愿为整体群体奖励做出贡献[6]。