解决双人博弈树:步骤 1:在第一步中,算法生成整个博弈树并应用效用函数来获取终端状态的效用值。在下面的树形图中,我们假设 A 是树的初始状态。假设最大化者采取第一轮,其最坏情况为:初始值 =- 无穷大,而最小化者将采取下一轮,其最坏情况为:
现在我们知道如何计算纳什均衡了:只需使用遗憾最小化算法对每个玩家运行上述重复博弈,策略的均匀平均值就会收敛到纳什均衡。图 1 展示了课程中迄今为止教授的遗憾最小化算法在通过定理 1 计算零和矩阵博弈的纳什均衡时的性能。性能显示在 3 个随机矩阵博弈类中,其中 A 中的条目根据以下条件进行采样:100×100 均匀 [0, 1]、500×100 标准高斯和 100×100 标准高斯。所有图均在每个设置的 50 个游戏样本中取平均值。我们展示了一个加法算法以供参考:镜像邻近算法,它是一种离线优化算法,以 O 1 的速率收敛到纳什均衡
Bakhtin, A.、Brown, N.、Dinan, E.、Farina, G.、Flaherty, C.、Fried, D.、Goff, A.、Gray, J.、Hu, H.、Jacob, AP、Komeili, M.、Konath, K.、Kwon, M.、Lerer, A.、Lewis, M.、Miller, AH、Mitts, S.、Renduchintala, A.、Roller, S. 和 Rowe, D. (2022)。将语言模型与战略推理相结合,实现外交博弈中的人类层面博弈。科学。doi:https://doi.org/10.1126/science.ade9097。
在量子信息领域,双人博弈为我们提供了有用的视角,让我们了解量子纠缠作为一种资源的独特威力。例如,克劳塞-霍恩-西莫尼-霍尔特 (CHSH) 博弈就是一个操作任务的例子,其中量子纠缠比所有可能的经典策略都更具优势。对 CHSH 以及更一般的非局部博弈的分析不仅为我们提供了对贝尔不等式 [ 1 ] 等基础概念的洞察,而且还为可验证随机性生成 [ 2 ]、密钥分发 [ 3 ] 或委托计算 [ 4 ] 等重要任务的协议。由于没有通信的纠缠可以产生超出经典可能的相关性,因此值得探索在允许通信的情况下这种相关性在多大程度上仍然成立。对于具有分布式输入的计算函数,纠缠可以将通信成本降低多达指数倍 [ 5 ],但不会更多 [ 6 ]。纠缠的形式在某些情况下很重要,但在其他情况下则不然:当允许通信和少量错误时,EPR 对至少与任何其他状态一样有用 [ 7 ],而在零通信设置中,非最大纠缠态可以实现更多 [ 8 , 9 ]。
这个博弈就是著名的囚徒困境,其中 C i 解释为玩家 i 与另一个玩家合作,而 D i 则背叛另一个玩家。这个博弈对人类的悲惨结局提供了深刻的解释(以及可能躲避厄运的复杂指示)。但是现在我们仅用它来介绍严格支配策略的概念。玩家 i 的策略 si 被另一个策略 s ′ i 严格支配,并且无论另一个玩家选择哪种策略,该玩家的预期收益都严格大于 si。例如,在囚徒困境中,C 1 被 D 1 严格支配:如果玩家 2 选择 C 2 ,则 C 1 的收益为 1 而 D 1 的收益为 2 ;如果玩家 2 选择 D 2 ,则 C 1 的收益为 - 3 而 D 1 的收益为零。因此,玩家 1 将选择 D 1 。同样,C 2 严格受 D 2 支配,因此玩家 2 会选择 D 2 。因此,尽管如果他们选择 (C 1, C 2),可能会得到 (1, 1) 的“双赢”结果,但两位玩家最终选择 (D 1, D 2),从而得到 (0, 0)。因此,我们得到 (D 1, D 2) 作为博弈的主导策略均衡。
摘要 — 以云联盟形式开展合作的云提供商可以利用不同地点的电价波动来降低能源成本。在这种环境下,一方面,电价对所形成的联盟有显著影响,从而对云提供商的利润产生重大影响,另一方面,云合作对智能电网的性能也有不可避免的影响。在这方面,本文将独立云提供商与智能电网之间的相互作用建模为两阶段 Stackelberg 博弈与联盟博弈交织在一起。在这个博弈中,在第一阶段,智能电网作为领导者选择适当的电价机制来最大化自己的利润。在第二阶段,云提供商合作管理他们的工作量以最小化他们的电力成本。考虑到联盟形成过程中云提供商的动态,智能电网已经使用基于约束马尔可夫决策过程 (CMDP) 的优化模型来实现最优策略。数值结果表明,与非合作方案相比,所提出的解决方案分别为智能电网和云提供商平均带来约 28% 和 29% 的利润提高。
最优经济学研究 NR 5 (71) 2014 Marek SZOPA 1 量子囚徒困境如何支持谈判 2 摘要 囚徒困境游戏模拟谈判双方的决策。该游戏以量子方式制定,其中玩家策略是基于相反决策选项建立的量子位的幺正变换。量子策略通过量子纠缠机制相互关联,游戏结果通过所得变换状态的崩溃获得。量子玩家允许的策略范围比经典游戏更丰富,因此可以更好地优化游戏结果。另一方面,量子游戏可以防止窃听,玩家可以确信这种类型的量子仲裁是公平的。我们表明,量子囚徒困境比其经典类似物具有更有利的纳什均衡,并且它们接近帕累托最优解。并提出了一些利用量子博弈纳什均衡的经济实例。关键词:博弈论;量子博弈;囚徒困境;纳什均衡;帕累托最优解。1. 谈判如同博弈谈判方做出的许多决策依赖于他们之间的战略互动。这意味着谈判方可以在不同的策略之间进行选择,通常是冲突或合作。他们都同意相互合作是最可取的行为,但他们的选择是在不知道对方决定的情况下同时做出的。这产生了拒绝合作(背叛)的诱惑。这种互动通常用经典博弈论来描述。囚徒困境 [PD] 博弈是该类型中最著名的博弈之一。它最早由 Flood 和 Dresher [Flood, Dresher, 1952] 提出,并由 Albert Tucker 推广,他的两个囚犯的故事是该游戏当前名称的基础。PD 的流行源于其通用的游戏方案,它描述了日常生活中非常常见的谈判困境。一个典型的场景包含一个假设,即两个玩家 Alice 和 Bob 彼此独立地在合作 (C) 和背叛 (D) 之间做出选择。这两个玩家的选择是收益矩阵的基础,如表 1 所示。
如果节点具有战略意义并可以更改聚类,那么聚类的质量(通常通过电导率、切边数或到中心的平均距离来衡量)会下降多少?在节点的合理效用中,哪一个对质量的损害最小?我们从理论上研究了这些问题,通过研究享乐博弈(具有不受约束的聚类数量的简化聚类博弈)的均衡,并从实验上测量了更现实的聚类博弈的纯纳什均衡的质量。我们为节点引入了一个新的效用函数,我们称之为接近度,我们相信它是先前研究的节点效用的一个有吸引力的替代方案。我们从理论上研究了接近度效用的属性,并通过实验证明了它比其他已建立的效用(如修改后的分数效用)的优势。最后,我们提出了一个多项式时间算法,该算法在给定一个具有最优质量的聚类的情况下,找到另一个具有更好平均效用的聚类,事实上,这个算法可以最大化平均效用的增益与质量损失的比率。
我们之前研究过纯策略纳什均衡,特别是在拥堵博弈的背景下,这种均衡是肯定存在的。提醒一下,拥堵博弈承认一个潜在函数 Φ,其特性是玩家通过切换策略而导致的成本变化恰好是 Φ 的变化。因此,纯纳什均衡对应于 Φ 的局部最小值,因为没有局部改进的可能性(玩家的单方面行动)可以确保没有玩家可以单方面降低其成本。由于我们的游戏有有限多的玩家,每个玩家都有有限多的策略,因此 Φ 只能取有限多的值,因此具有全局最小值,从而至少有一个局部最小值(因此是纯纳什均衡)。