假设原始博弈中存在非均衡情况,对你来说比均衡情况(或多个均衡中的预期选择)更好,将博弈转换为两阶段博弈,这样你在第一阶段的行动会改变第二阶段(现在是子博弈)的均衡,行动类型 - 1. 无条件 - 承诺 - 确定你的第二阶段行动,2. 有条件 - 威胁和承诺让你成为第二阶段的第二行动者,并将你的反应规则确定为第一行动者的动作
摘要:随着 AlphaGo 的突破,人机博弈人工智能迎来了大爆发,吸引了世界各地越来越多研究者的关注。作为检验人工智能的公认标准,各种人机博弈人工智能系统(AI)相继问世,如 Libratus、OpenAI Five 以及击败人类专业选手的 AlphaStar。人机博弈人工智能的快速发展标志着决策智能迈出了一大步,目前的技术似乎可以处理非常复杂的人机博弈。因此,一个自然而然的问题出现了:当前人机博弈技术可能面临哪些挑战,未来的趋势又是什么?为了回答上述问题,本文对近期成功的游戏 AI 进行了综述,涵盖了棋盘游戏 AI、纸牌游戏 AI、第一人称射击游戏 AI 和实时战略游戏 AI。通过本次综述,我们 1)比较不同类型游戏的主要难点以及实现专业人类水平 AI 的相应技术; 2)总结开发复杂人机博弈人工智能时可以适当依赖的主流框架和技术;3)提出成功人工智能中现有技术的挑战或缺点;4)尝试指出人机博弈人工智能的未来趋势。最后,我们希望这篇简短的评论可以为初学者提供入门知识,并为人机博弈人工智能领域的研究人员提供启发。
摘要:随着AlphaGo的突破,人机博弈人工智能迎来了大爆发,吸引了世界各地越来越多研究者的关注。作为检验人工智能的公认标准,各种各样的人机博弈人工智能系统(AI)相继诞生,如Libratus、OpenAI Five,还有击败人类专业选手的AlphaStar。人机博弈人工智能的快速发展标志着决策智能迈出了一大步,目前的技术似乎可以处理非常复杂的人机博弈。那么,一个自然而然的问题出现了:目前的技术在人机博弈中可能面临哪些挑战,未来的趋势又是什么?为了回答上述问题,本文对近期成功的游戏AI进行了综述,涵盖了棋盘游戏AI、卡牌游戏AI、第一人称射击游戏AI和实时战略游戏AI。通过综述,我们1)比较不同类型游戏的主要困难以及实现人类专业水平AI的相应技术; 2)总结开发复杂人机博弈人工智能时可以适当依赖的主流框架和技术;3)提出成功人工智能中现有技术的挑战或缺点;4)尝试指出人机博弈人工智能的未来趋势。最后,我们希望这篇简短的综述可以为初学者提供入门知识,并为人机博弈人工智能领域的研究人员提供启发。
数学家卡尔·西格蒙德 (Karl Sigmund) 在其 2009 年出版的《自私的演算》[7] 一书中,从博弈论的角度解答了关于自私与合作的问题。因此,很多讨论自然都与 IPD 有关。在本节中,我们将尝试从复制器动态的角度研究 IPD 博弈,并观察一些策略如何随时间演变。我们可以考虑之前在 1 中提出的 IPD。现在,由于博弈是迭代的,我们需要一种随机的方式来模拟博弈的持续时间。因此,我们可以引入一个变量 ω ∈ (0 , 1)。然后在每一轮中,以概率 ω 再次进行博弈。这可以被认为是一个几何分布,我们等待成功(游戏结束),其概率为 1 − ω 。因此,预期游戏长度为 1 1 − ω 。
欺骗在信息不完全的战略互动中起着至关重要的作用。受安全应用的启发,我们研究了一类具有单边不完全信息的双人回合制确定性博弈,其中玩家 1(P1)的目的是阻止玩家 2(P2)达到一组目标状态。除了行动之外,P1 还可以放置两种欺骗资源:“陷阱”和“假目标”,以误导 P2 有关博弈的转变动态和收益。陷阱通过使陷阱状态看起来正常来“隐藏真实”,而假目标通过将非目标状态宣传为目标来“揭示虚构”。我们感兴趣的是联合合成利用 P2 错误信息的 P1 的最佳诱饵放置和欺骗性防御策略。我们在图模型上引入了一个新颖的超博弈和两个解决方案概念:隐秘欺骗必胜和隐秘欺骗几乎必胜。这些确定了 P1 可以在有限步内或以 1 的概率阻止 P2 到达目标的状态,并且 P2 不会意识到自己被欺骗了。因此,确定最佳诱饵位置相当于最大化 P1 的欺骗获胜区域的大小。考虑到探索所有诱饵分配的组合复杂性,我们利用组合合成概念来表明诱饵放置的目标函数是单调的、非减的,并且在某些情况下是亚模或超模的。这导致了一个诱饵放置的贪婪算法,当目标函数是亚模或超模时实现 (1 − 1 / e ) 近似。提出的超博弈模型和解决方案概念有助于理解各种安全应用中的最佳欺骗资源分配和欺骗策略。
我们研究在无法获得梯度的情况下计算连续动作博弈的近似纳什均衡的问题。这种游戏访问在强化学习环境中很常见,其中环境通常被视为黑匣子。为了解决这个问题,我们应用了零阶优化技术,将平滑梯度估计量与均衡寻找动力学相结合。我们使用人工神经网络来模拟玩家的策略。具体而言,我们使用随机策略网络来模拟混合策略。这些网络除了接收观察结果外,还接收噪声作为输入,并且可以灵活地表示任意依赖于观察结果的连续动作分布。能够模拟这种混合策略对于解决缺乏纯策略均衡的连续动作博弈至关重要。我们使用博弈论中纳什收敛指标的近似值来评估我们方法的性能,该指标衡量玩家从单方面改变策略中可以获得多少益处。我们将我们的方法应用于连续的 Colonel Blotto 游戏、单品和多品拍卖以及可见性游戏。实验表明,我们的方法可以快速找到高质量的近似均衡。此外,它们还表明输入噪声的维度对于性能至关重要。据我们所知,本文是第一篇解决具有无限制混合策略且没有任何梯度信息的一般连续动作游戏的论文。
摘要。在本文中,我们引入了一类用于一般量子博弈的学习动力学,我们称之为“跟随量子正则化领导者”(FTQL),参考有限博弈的经典 FTRL 模板。我们表明,诱导的量子态动力学分解为 (i) 一个经典的交换分量,它以类似于 FTRL 下混合策略的演化的方式控制系统特征值的动态;以及 (ii) 系统特征向量的非交换分量,它没有经典对应项。尽管这个非经典组件带来了复杂性,但我们发现 FTQL 动力学在所有量子博弈中只会产生恒定的遗憾。此外,通过调整经典的稳定性概念来解释量子博弈状态空间的非线性几何,我们表明只有纯量子均衡才能在 FTQL 下稳定且具有吸引力,而作为部分逆,满足特定“变分稳定性”条件的纯均衡始终具有吸引力。最后,我们表明 FTQL 动态在量子最小最大博弈中具有庞加莱递归性,以这种方式扩展了量子复制器动态的一个最新结果。
许多从业者和研究人员都在探索在公共物品体系中促进环保行为。大量实验研究揭示了各种类型的激励措施,以增加公共物品方面的合作。有充分的证据表明,货币和非货币激励措施(例如捐赠)对公共物品博弈中的合作具有积极影响,这种影响超出了完全理性和最佳的经济决策。尽管这些研究已经积累,但在这些实验的典型设置中,参与者决定将资源分配给公共池,但他们从未付出实际努力。然而,在现实中,我们经常观察到,在这些公共物品博弈情况下,需要玩家付出真正的努力。因此,需要进行更多分析,以得出在与资源分配博弈类似但又不同的情形中更广泛的激励可能性的结论。在这里,我们在在线实验中构建了一个真实努力的公共物品博弈,并统计分析了不同类型的激励对合作的影响。在我们的实验中,我们研究了货币和社会激励的组合,其背景更贴近实际现实,例如财务成本和实际努力构成了在公共物品上合作决策的一部分。在我们的实际努力公共物品游戏中,参与者在图像评分任务上合作和背叛。我们发现,在我们的环境中,经济和社会激励产生了不对称的影响。有趣的是,经济激励降低了高度不合作参与者的比例,而社会激励则提高了高度合作参与者的比例。
我们展示了一种将任何 k 个证明者非局部博弈编译成单证明者交互式博弈的通用方法,同时保持相同的(量子)完整性和(经典)健全性保证(安全参数中的加性因子最多可忽略不计)。我们的编译器使用任何满足辅助(量子)输入自然正确性的量子同态加密方案(Mahadev,FOCS 2018;Brakerski,CRYPTO 2018)。同态加密方案用作模拟空间分离效果的加密机制,并且需要对加密查询评估 k - 1 个证明者策略(选出 k 个)。结合从著名的 CHSH 博弈(Clauser、Horne、Shimonyi 和 Holt,Physical Review Letters 1969)开始的(纠缠)多证明者非局部博弈的丰富文献,我们的编译器为构建机制来经典地验证量子优势提供了一个广泛的框架。
杀人司机差异博弈....................................................................................................................................................................................................16 两辆车的差异博弈....................................................................................................................................................................................................................................17 受限环境下的追捕-躲避....................................................................................................................................................................................................19 信息不足时的追捕-躲避....................................................................................................................................19 . . . . . . . . . . 19 空中交战中的追击规避 . . . . . . . . . . . . . . . . 21 其他 1V1 作品 . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5 N 个追击者、1 个规避者 (Nv1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... .................................................................................................................................................................................35 2.11 结束语....................................................................................................................................................................................................37