本文 1 旨在建立一个框架,指导一个由简单、专业化、自利的代理组成的社会解决传统上被认为是单一的单代理顺序决策问题。使用分散式方法集体优化一个中心目标之所以具有挑战性,是因为难以描述非合作博弈的均衡策略概况。为了克服这一挑战,我们设计了一种机制来定义每个代理的学习环境,我们知道对于该代理,全局目标的最优解与代理优化其自身局部目标的纳什均衡策略概况相一致。社会作为一个代理经济体发挥作用,代理通过相互买卖操作环境状态的权利来学习信用分配过程本身。我们推导出一类分散式强化学习算法,它们不仅适用于标准强化学习,还适用于选择半 MDP 中的选项和动态组成计算图。最后,我们展示了社会固有的模块化结构对于更有效的迁移学习的潜在优势。
主要关键词