多代理增强学习的群体感知协调图
机构名称:
¥ 1.0

合作的多代理增强学习(MARL)需要在代理之间进行无缝的协作,通常以基本关系图来表示。现有学习该图的现有方法主要集中于代理关系关系,并具有高阶关系。虽然几种方法试图扩展合作模式以包含组内的行为相似性,但它们通常同时学习潜在图,从而在部分观察到的药物之间限制了信息交换。为了克服这些局限性,我们提出了一种新的方法来推断群体感知的坐标图(GACG),该方法旨在根据当前观察结果和群体级别的依赖性从跨轨迹观察到的行为模式来捕获代理对之间的合作。该图进一步用于图形卷积,以在决策过程中进行信息交换。为了进一步确保同一组中的代理人之间的行为一致性,我们引入了群体距离损失,该距离损失会产生群体的凝聚力并鼓励组之间的专业化。我们的评估是在Starcraft II微管理任务上进行的,是GACG的出色表现。一项消融研究进一步提供了我们方法每个组成部分有效性的实验证据。

多代理增强学习的群体感知协调图

多代理增强学习的群体感知协调图PDF文件第1页

多代理增强学习的群体感知协调图PDF文件第2页

多代理增强学习的群体感知协调图PDF文件第3页

多代理增强学习的群体感知协调图PDF文件第4页

多代理增强学习的群体感知协调图PDF文件第5页

相关文件推荐

增强学习的数学
2024 年
¥20.0