抽象的自主区域保护是多代理系统中重要的研究领域,旨在使捍卫者能够防止入侵者进入特定地区。本文提出了一个多代理区域保护环境(MRPE),其守卫者,防守者损害赔偿和入侵者逃避策略针对捍卫者。MRPE由于其高的非机构性和有限的拦截时间窗口而对传统保护方法提出了挑战。为了克服这些障碍,我们修改了进化增强学习,从而产生了相应的多代理区域保护方法(MRPM)。MRPM合并进化算法和深度强化学习的优点,特定利用差异进化(DE)和多代理的深层确定性政策梯度(MADDPG)。促进了各种样本探索并克服了稀疏的奖励,而MADDPG则训练防守者并加快了融合过程。此外,为多机构系统量身定制的精英选择策略是为了增强防御者的协作而设计的。本文还提出了巧妙的设计,以有效地推动政策优化的功能和奖励功能。最后,进行了广泛的数值模拟以验证MRPM的有效性。
主要关键词