Loading...
机构名称:
¥ 4.0

我们从多智能体强化学习 (MARL) 的角度研究了一个双层经济系统,我们称之为马尔可夫交换经济 (MEE)。MEE 涉及一个中央计划者和一组自利的智能体。智能体的目标是形成竞争均衡 (CE),其中每个智能体在每一步都短视地最大化自己的效用。中央计划者的目标是操纵系统以最大化社会福利,社会福利被定义为所有智能体效用的总和。在效用函数和系统动态都未知的环境中,我们建议通过 MARL 的在线和离线变体从数据中找到社会最优策略和 CE。具体而言,我们首先设计一个专门针对 MEE 的新型次优度量,这样最小化这样的度量就可以为计划者和智能体证明全局最优策略。其次,在线设置中,我们提出了一种称为 MOLM 的算法,该算法将探索的乐观原则与子博弈 CE 寻求相结合。我们的算法可以轻松结合用于处理大状态空间的一般函数逼近工具,并实现次线性遗憾。最后,我们根据悲观原则将算法调整为离线设置,并建立次优性的上限。

竞争均衡中的福利最大化

竞争均衡中的福利最大化PDF文件第1页

竞争均衡中的福利最大化PDF文件第2页

竞争均衡中的福利最大化PDF文件第3页

竞争均衡中的福利最大化PDF文件第4页

竞争均衡中的福利最大化PDF文件第5页