合作多代理增强学习(MARL)中的“视力范围难题”提出了一个重大挑战:有限的访问性阻碍团队的协调,而广泛的视线范围会导致注意力分散注意力和绩效下降。虽然通讯可以潜在地解决这个问题,但现有的方法通常很难跨越不同的视觉范围,从而限制了它们的有效性。我们提出了策略,任务不合时宜的对比前训练策略间互动。策略是一种自适应沟通机制,即使执行过程中的视线范围与训练中的视线范围大不相同,也可以增强代理坐标。通信机制编码消息并将其与本地观察结果集成在一起,并使用对比度学习以基于全球状态的产生表示形式。通过学习生成和解释有关整个环境重要信息的信息,策略使代理商能够通过交流有效地“看到”更多的信息,无论其视觉范围如何。我们在各种情况下,在各种情况下对SMACV2基准进行了全面评估。结果表明,战术始终优于传统的最先进的MARL技术,而没有通信,而在训练中尤其是在极限有限或广泛的观察性的情况下,对视力范围有所不同。
主要关键词