迅速近似Shapley游戏

在这篇博客文章中,我们将讨论大约解决Shapley游戏算法的最新进展。什么是沙普利游戏?在直观的层面上,沙普利游戏捕捉了将单发2播放器游戏扩展到多个阶段的想法。 Shapley游戏明确地在基本的国家空间上玩。每个玩家都可以选择一个动作。根据他们的选择,第一个玩家获得了奖励(并且第二个玩家获得),并且游戏以概率转移到状态。此外,在每个时间步骤中,游戏结束的可能性(因此)。每个玩家的目标是最大化自己的收入。这些游戏是由[Shapley’53]介绍的,他还证明了Shapley游戏具有价值时:即将存在这种最大值。此外,该值可以将其特征在于特定固定点方程的解决方案:定义为“回报矩阵”上两人游戏的最佳收益,Shapley游戏的值是所有人(在此处)满足的唯一矢量。直觉上,这是有道理的:一个在给定状态下的球员预期的回报是[...]

来源:理论盘点博客

在这篇博客文章中,我们将讨论大约解决Shapley游戏算法的最新进展。

什么是沙普利游戏?

在直观的层面上,沙普利游戏捕获了扩展一击2玩家游戏将在多个阶段进行的想法。

明确地,在基础的国家空间上玩了Shapley游戏。每个玩家都可以选择一个动作。根据他们的选择,第一个玩家获得了奖励(并且第二个玩家获得),并且游戏以概率转移到状态。此外,在每个时间步骤中,游戏结束的可能性(因此)。每个玩家的目标是最大化自己的收入。

这些游戏是由[Shapley’53]介绍的,他还证明了Shapley游戏具有价值:即,这种最大值存在。

Shapley’53 value

此外,该值可以将其特征在于特定固定点方程的解决方案:定义为回报矩阵上两人游戏的最佳收益,Shapley游戏的值是所有人(在这里)满足所有人的唯一向量。直观地,这是有道理的:球员在给定状态下的预期收益完全取决于他们目前的回报和未来的回报。

我们经常对呈指数级的环境感兴趣(实际上,后来证明Shapley Games在何时具有价值,但我们不会专注于这种情况)。

将Shapley游戏连接到固定点定理

正如我们上面谈到的,Shapley游戏的价值是所有人都令人满意的矢量。如果我们将其定义为在V $中所有$ \ latex v \上由右侧组成的向量,那么事实证明,除了可以计算多项式时,实际上还满足了两个特殊属性:

    单调性:对于每一个,收缩:对于以后,我们还将关心定义离散功能的收缩属性:在这种情况下,我们将约束放松为(否则,所有值实际上都是等于)
单调性 EPRY’20