中央服务器。中央服务器然后从这些数据中学习,并指示代理如何在特定情况下采取行动。昏迷(反事实多代理策略梯度)是一种使用CTDE方法设计的算法[3]。使用CTDE结构的另一种算法是QMIX [4]。QMIX结合了单个代理商的回报,以创造全部奖励,以最大程度地提高这种全部奖励。在此过程中,QMIX学习了如何控制每个代理以有效地为整体奖励增加做出贡献。另一方面,顾名思义,Commnet [5]引起了自己的通信神经网络,允许每个代理人直接与其他代理人共享信息。促进合作的另一种方法是在团体奖励和个人奖励之间建立联系。liir(学习个人的内在奖励)提出了一个学习个人奖励的神经网络,鼓励每个代理人自愿为整体群体奖励做出贡献[6]。
摘要 - 采用电动汽车(EV)的增加趋势将显着影响住宅电力需求,从而导致分配网格中变压器过载的风险增加。为了减轻这种风险,迫切需要开发有效的EV充电控制器。当前,大多数EV电荷控制器都是基于管理单个电动汽车或一组电动汽车的集中式方法。在本文中,我们介绍了一个分散的多代理增强学习(MARL)充电框架,该框架优先确定电动汽车所有者的隐私。我们采用了集中的培训,分散的执行确定性策略梯度(CTDE-DDPG)方案,该方案在培训期间为用户提供有价值的信息,同时在执行过程中保持隐私。我们的结果表明,CTDE框架通过降低网络成本来提高充电网络的性能。此外,我们表明总需求的峰值与平均比率(PAR)减少了,进而降低了峰值时间内变压器过载的风险。索引术语 - 合作MARL,EV充电网络控制,分布式控制,需求端管理