Loading...
机构名称:
¥ 1.0

在本文中,我们考虑了在共同手术多代理增强学习(MARL)中学习独立公平政策的问题。目的是同时设计多个政策,以优化公平性的福利功能。为了实现这一目标,我们提出了一种新颖的公平性近端政策优化(FAPPO)算法,该算法分别学习了所有代理商的个人政策,并优化了福利功能以确保它们之间的公平性,与优化折扣奖励相反。所提出的方法显示出在独立学习环境中学习公平策略,每个代理都会估算其本地价值函数。当允许跨性别的通信时,我们通过合并一种自我注意力的机制来进一步引入基于注意力的FAPPO(AT-FAPPO)变体。此变体使代理商能够通过利用在培训期间共享相关信息的能力来传达和协调其行为,从而导致更公平的事件。为了显示提出方法的有效性,我们在两个环境中进行实验,并表明我们的方法在效率和公平方面都优于先前的方法。

在合作多机构强化学习中迈向公平,公平的政策学习

在合作多机构强化学习中迈向公平,公平的政策学习PDF文件第1页

在合作多机构强化学习中迈向公平,公平的政策学习PDF文件第2页

在合作多机构强化学习中迈向公平,公平的政策学习PDF文件第3页

在合作多机构强化学习中迈向公平,公平的政策学习PDF文件第4页

在合作多机构强化学习中迈向公平,公平的政策学习PDF文件第5页