Loading...
机构名称:
¥ 1.0

合作性异构多智能体任务要求智能体以灵活和互补的方式行事,以最大程度地利用其多样化能力。针对这一挑战的基于学习的解决方案涵盖两个端点之间的范围:i)共享参数方法,通过为每个智能体分配一个 ID,在单一架构内编码多样化行为,这种方法样本效率高,但行为多样性有限;ii)独立方法,为每个智能体学习单独的策略,以样本和参数效率为代价实现更大的多样性。先前针对异构多智能体团队学习的研究已经探索了这一范围的中间地带,即为不同类别的智能体学习共享参数或独立策略,从而在多样性和效率之间实现折衷。然而,这些方法仍然没有推理智能体能力对行为的影响,因此不能推广到未知的智能体或团队组成。受到迁移学习和元强化学习最新研究的启发,并在基于特征的任务分配的先前研究的基础上,我们提出了能力感知共享超网络 (CASH),这是一种用于异构协调的新型软权重共享架构,它使用超网络明确推理持续代理能力和局部观察。直观地说,CASH 允许团队学习共享的决策策略(由共享编码器捕获),这些策略可以通过共享超网络根据团队的个人和集体能力轻松调整。我们在两个异构协调任务和三个标准学习范式(模仿学习、基于价值和策略梯度强化学习)中进行了详细的实验,展示了我们的设计如何与底层学习范式无关。结果表明,CASH 产生了适当多样化的行为,在训练和零样本泛化期间的任务性能和样本效率方面始终优于基线架构。值得注意的是,CASH 仅使用基线使用的 20% 到 40% 的可学习参数就实现了这些改进。我们所有的代码都可以在 https://github.com/kfu02/JaxMARL 上找到。

通过能力感知共享超网络学习灵活的异构协调

通过能力感知共享超网络学习灵活的异构协调PDF文件第1页

通过能力感知共享超网络学习灵活的异构协调PDF文件第2页

通过能力感知共享超网络学习灵活的异构协调PDF文件第3页

通过能力感知共享超网络学习灵活的异构协调PDF文件第4页

通过能力感知共享超网络学习灵活的异构协调PDF文件第5页

相关文件推荐

2024 年
¥1.0
2013 年
¥1.0