合作的异构多智能体任务要求智能体以灵活和互补的方式行事,以最大限度地利用其多样化的能力。针对这一挑战的基于学习的解决方案涵盖两个端点之间的范围:i)共享参数方法,通过为每个智能体分配一个 ID,在单一架构内编码不同的行为,这种方法具有样本效率,但行为多样性有限;ii)独立方法,为每个智能体学习单独的策略,以样本和参数效率为代价实现更大的多样性。先前针对异构多智能体团队的学习工作已经通过学习智能体类别的共享参数或独立策略探索了这一范围的中间地带,从而允许在多样性和效率之间进行折衷。然而,这些方法仍然没有推理智能体能力对行为的影响,因此不能推广到看不见的智能体或团队组成。受到最近迁移学习和元强化学习研究的启发,并在基于特征的任务分配的先前研究的基础上,我们提出了能力感知共享超网络 (CASH),这是一种用于异构协调的新型软权重共享架构,它使用超网络明确推理持续代理能力和局部观察。直观地说,CASH 允许团队学习共享的决策策略(由共享编码器捕获),这些策略可以通过共享超网络根据团队的个人和集体能力轻松调整。我们对两个异构协调任务和三个标准学习范式(模仿学习、基于价值和策略梯度强化学习)进行了详细的实验,展示了我们的设计如何与底层学习范式无关。结果表明,CASH 生成了适当多样化的行为,在训练和零样本泛化过程中,其任务性能和样本效率始终优于基线架构。值得注意的是,CASH 仅使用基线使用的可学习参数的 20% 到 40% 就实现了这些改进。我们所有的代码都可以在 https://github.com/kfu02/JaxMARL 上找到。
主要关键词