• 生态锦标赛:第二届锦标赛的参赛者(加上随机)用作由 1000“代”组成的“进化”锦标赛的初始条件。第 G 代开始时种群池中 T 类策略的数量设置为等于上一代 G-1 中 T 类策略赢得的总分数。
数学家卡尔·西格蒙德 (Karl Sigmund) 在其 2009 年出版的《自私的演算》[7] 一书中,从博弈论的角度解答了关于自私与合作的问题。因此,很多讨论自然都与 IPD 有关。在本节中,我们将尝试从复制器动态的角度研究 IPD 博弈,并观察一些策略如何随时间演变。我们可以考虑之前在 1 中提出的 IPD。现在,由于博弈是迭代的,我们需要一种随机的方式来模拟博弈的持续时间。因此,我们可以引入一个变量 ω ∈ (0 , 1)。然后在每一轮中,以概率 ω 再次进行博弈。这可以被认为是一个几何分布,我们等待成功(游戏结束),其概率为 1 − ω 。因此,预期游戏长度为 1 1 − ω 。
高频交易 (HFT) 为商用第一代准量子计算机提供了一个绝佳的使用案例和潜在的杀手级应用。为此,我们在此提供一个简单的 HFT 博弈论模型,即著名的双人游戏“囚徒困境”。我们探索使用 Eisert、Wilkens 和 Lewenstein 量子中介通信协议在 (准) 量子云上将 HFT 实现为囚徒困境的一个实例,以及这种实现如何不仅可以提高交易速度,还可以改善 HFT 参与者的命运。使用合作博弈论推理,我们还注意到,在不久的将来,当互联网完全量子化时,玩家将能够在 HFT 中实现帕累托最优,作为强化机器学习的一个实例。
这个博弈就是著名的囚徒困境,其中 C i 解释为玩家 i 与另一个玩家合作,而 D i 则背叛另一个玩家。这个博弈对人类的悲惨结局提供了深刻的解释(以及可能躲避厄运的复杂指示)。但是现在我们仅用它来介绍严格支配策略的概念。玩家 i 的策略 si 被另一个策略 s ′ i 严格支配,并且无论另一个玩家选择哪种策略,该玩家的预期收益都严格大于 si。例如,在囚徒困境中,C 1 被 D 1 严格支配:如果玩家 2 选择 C 2 ,则 C 1 的收益为 1 而 D 1 的收益为 2 ;如果玩家 2 选择 D 2 ,则 C 1 的收益为 - 3 而 D 1 的收益为零。因此,玩家 1 将选择 D 1 。同样,C 2 严格受 D 2 支配,因此玩家 2 会选择 D 2 。因此,尽管如果他们选择 (C 1, C 2),可能会得到 (1, 1) 的“双赢”结果,但两位玩家最终选择 (D 1, D 2),从而得到 (0, 0)。因此,我们得到 (D 1, D 2) 作为博弈的主导策略均衡。
最优经济学研究 NR 5 (71) 2014 Marek SZOPA 1 量子囚徒困境如何支持谈判 2 摘要 囚徒困境游戏模拟谈判双方的决策。该游戏以量子方式制定,其中玩家策略是基于相反决策选项建立的量子位的幺正变换。量子策略通过量子纠缠机制相互关联,游戏结果通过所得变换状态的崩溃获得。量子玩家允许的策略范围比经典游戏更丰富,因此可以更好地优化游戏结果。另一方面,量子游戏可以防止窃听,玩家可以确信这种类型的量子仲裁是公平的。我们表明,量子囚徒困境比其经典类似物具有更有利的纳什均衡,并且它们接近帕累托最优解。并提出了一些利用量子博弈纳什均衡的经济实例。关键词:博弈论;量子博弈;囚徒困境;纳什均衡;帕累托最优解。1. 谈判如同博弈谈判方做出的许多决策依赖于他们之间的战略互动。这意味着谈判方可以在不同的策略之间进行选择,通常是冲突或合作。他们都同意相互合作是最可取的行为,但他们的选择是在不知道对方决定的情况下同时做出的。这产生了拒绝合作(背叛)的诱惑。这种互动通常用经典博弈论来描述。囚徒困境 [PD] 博弈是该类型中最著名的博弈之一。它最早由 Flood 和 Dresher [Flood, Dresher, 1952] 提出,并由 Albert Tucker 推广,他的两个囚犯的故事是该游戏当前名称的基础。PD 的流行源于其通用的游戏方案,它描述了日常生活中非常常见的谈判困境。一个典型的场景包含一个假设,即两个玩家 Alice 和 Bob 彼此独立地在合作 (C) 和背叛 (D) 之间做出选择。这两个玩家的选择是收益矩阵的基础,如表 1 所示。