Quickly approximating Shapley Games
在这篇博客文章中,我们将讨论大约解决Shapley游戏算法的最新进展。什么是沙普利游戏?在直观的层面上,沙普利游戏捕捉了将单发2播放器游戏扩展到多个阶段的想法。 Shapley游戏明确地在基本的国家空间上玩。每个玩家都可以选择一个动作。根据他们的选择,第一个玩家获得了奖励(并且第二个玩家获得),并且游戏以概率转移到状态。此外,在每个时间步骤中,游戏结束的可能性(因此)。每个玩家的目标是最大化自己的收入。这些游戏是由[Shapley’53]介绍的,他还证明了Shapley游戏具有价值时:即将存在这种最大值。此外,该值可以将其特征在于特定固定点方程的解决方案:定义为“回报矩阵”上两人游戏的最佳收益