我们研究了矩阵博弈的次线性经典算法和量子算法,这是优化和机器学习中的一个基本问题,具有可证明的保证。给定一个矩阵,矩阵博弈的次线性算法以前只知道两种特殊情况:(1)最大化向量位于 L1 范数单位球中,(2)最小化向量位于 L1 或 L2 范数单位球中。我们给出了一个可以在这两种情况之间平滑插值的次线性经典算法:对于 1 到 2 之间的任何固定 q,我们在某些附加误差范围内求解最小化向量位于 Lq 范数单位球中的矩阵博弈。我们还提供了一个相应的次线性量子算法,该算法可以解决同一任务,并且最大化和最小化向量的维度有二次改进。我们的经典算法和量子算法在维度参数上都是最优的,最多可达多对数因子。最后,我们提出了针对近似 Carathéodory 问题的亚线性经典和量子算法以及 Lq-margin 支持向量机作为应用。
从这个方面来看,自动化游戏一直与人工智能联系在一起,甚至早在这个名称的研究领域出现之前就存在了。 250年前,沃尔夫冈·冯·肯佩伦男爵 (Baron Wolfgang von Kempelen) 制造并演示了魅力十足的 Chess Turk,这可以作为一个起点(尽管之前就已经存在外形像玩偶、可以手写字的精致机械自动机)。虽然整个事情是个骗局,因为一个精通国际象棋的小人隐藏在土耳其木偶的齿轮中,并通过一根杆子控制它,但国际象棋机器的魅力已经达到了公众的程度。甚至查尔斯·巴贝奇也曾在与 Chess Turk 的比赛中落败,但在 19 世纪中叶,他设计了“一台能够成功玩纯智力游戏的机器;例如针锋相对、选秀、国际象棋等。”并得出了一个核心结论:“我很快就发现,每一种技巧游戏都可以由自动机来玩。”
摘要 — 投资组合方法代表一种简单但有效的行动抽象类型,它已被证明可以提高一系列战略游戏中基于搜索的代理的性能。我们首先回顾现有的投资组合技术,并提出一种基于滚动水平进化算法的优化和行动选择新算法。此外,还开发了一系列变体来解决不同方面的问题。我们进一步分析了所讨论的代理在一般战略游戏任务中的表现。为此,我们对 S TRATEGA 框架的三种不同游戏模式进行了实验。为了优化代理的参数和投资组合集,我们研究了 N 元组强盗进化算法的使用。由此产生的投资组合集表明游戏风格高度多样化,同时能够持续击败样本代理。对代理性能的分析表明,所提出的算法可以很好地推广到所有游戏模式,并且能够胜过其他投资组合方法。索引术语 — 投资组合方法、一般战略游戏、Stratega、N 元组强盗进化算法
我们提出了一种通用策略改进算法 (GSIA) 来寻找简单随机博弈 (SSG) 的最优策略。我们证明了 GSIA 的正确性,并推导出一个一般复杂度界限,它暗示并改进了几篇文章的结果。首先,我们删除了 SSG 停止的假设,这通常是通过博弈的多项式爆炸获得。其次,我们证明了与策略相关的值的分母的严格界限,并使用它来证明所有策略改进算法实际上都是随机顶点数量 r 的固定参数可处理的。所有已知的策略改进算法都可以看作是 GSIA 的实例,这允许分析 Condon [ 14 ] 从下方收敛的复杂性,并提出一类推广 Gimbert 和 Horn 算法的算法 [ 16 , 17 ]。这些算法最多在 r 中终止!迭代次数,对于二进制 SSG,它们的迭代次数比 Ibsen-Jensen 和 Miltersen [18] 给出的当前最佳确定性算法要少。
现在人们已经认识到信息从根本上植根于物理学 1,2。物理学最终是量子的,信息也是如此。经典信息理论的一些关键障碍已被其量子对应理论所克服,这为量子计算领域开辟了新视野,这主要是由于纠缠作为一种基本资源的可用性 1,2。信息在博弈论这个数学分支中发挥了核心作用,它提供了分析冲突局势的工具,在冲突局势中,各方(称为参与者)做出相互依赖的决策。因此,每个参与者都会考虑其他参与者可能做出的决策或策略,以制定最佳策略。然而,当冲突局势得到解决时,参与者的最佳策略描述了博弈的解决方案。否则,我们会陷入困境,即博弈中没有最佳解决方案的情况。尽管博弈论最初是在数学背景下发展起来的,试图描述机会游戏和赌博,但它很快就成为微观经济学的基础。第一个发展是所谓的零和游戏,其中玩家完全不相上下,没有合作的理由。后来,这一限制被取消,合作博弈论领域诞生了。经典合作博弈的量子扩展被称为量子博弈 2 – 9 (QG)。游戏的量子扩展最近因其在经济学中作为量子技术和谈判的新环境的可能作用而受到评论 10 – 12。在 Eisert 6、7 的量子博弈方案中,玩家的策略是在二分希尔伯特空间中对初始最大纠缠态执行的特定局部幺正变换。在玩家策略到位后,量子态通过解缠门产生最终状态。随后对该状态进行四个“量子”概率(以下称为概率)测量。游戏的支付关系用相应双矩阵的支付条目和由此产生的概率来表示。量子纠缠的一个特点是,纠缠会干扰经典博弈中的困境 6、7 。从经典角度来看,这种困境在于,没有玩家能够在不降低其他玩家预期收益的情况下获胜。从这个意义上讲,对于量子纠缠,可以说原始博弈的困境可以完全消失,也就是说,博弈的困境被打破了。在量子纠缠中,经典博弈中的一些限制被解除,从而干扰了困境,这为获得一种均衡提供了可能性,即两个玩家都获胜,并且在博弈中可用策略的可能收益范围内获得可接受的收益。将纠缠纳入博弈的初始状态,就会生成玩家最初无法使用的策略 7 。这些策略的数学公式可以探索量子和经典玩家之间的竞争互动 5、13。本文针对囚徒困境 6、7 和性别之战 14 测试了这些策略。同样,这种方法也可以用于其他游戏,例如胆小鬼游戏 7。此外,
讲座很长的一章!我们详细讨论战略游戏的话题有两个原因:一方面,在伴随讲座的实习期间,黑白棋游戏程序逐渐以小组形式开发,并在学期末的锦标赛中相互竞争 -基础理论和实际应用概念的知识是必不可少的,当然也是有用的。另一方面,游戏程序有着令人着迷的近代历史:许多著名的数学家和计算机科学家(包括查尔斯·巴贝奇、艾伦·图灵、约翰·冯·诺伊曼、康拉德·祖斯、克劳德·香农和诺伯特·维纳)都曾研究过它们;此外,还开发了许多游戏程序(最初是针对策略和算法要求不高的儿童游戏,例如 Nim 或 Tic-Tac-Toe,后来也针对“困难”且受到社会尊重的游戏,例如国际象棋和围棋)...
我们考虑一个分布式学习环境,其中战略用户受到融合中心的激励,以基于本地数据训练学习模型。用户没有义务提供他们的真实梯度更新,而融合中心无法验证所报告更新的真实性。受此启发,我们将融合中心与用户之间的互动表述为重复博弈,体现了机器学习与博弈论之间尚未得到充分探索的相互作用。然后,我们基于联合梯度估计和用户行为分类方案为融合中心开发了一种激励机制,并研究了其对分布式学习收敛性能的影响。此外,我们设计了自适应零决定 (ZD) 策略,从而将经典的 ZD 策略推广到具有时变随机误差的重复博弈。理论和实证分析表明,融合中心可以激励战略用户合作并报告信息丰富的梯度更新,从而确保收敛。
摘要 — 我们考虑一个自私节点网络,这些节点希望尽量缩短它们在其他节点上的更新时间。节点使用基于 CSMA/CA 的访问机制通过共享频谱发送更新。我们将由此产生的竞争建模为非合作的一次性多址接入博弈,并研究两种不同介质访问设置的均衡策略 (a) 碰撞比成功传输短,(b) 碰撞更长。我们研究 CSMA/CA 时隙中的竞争,其中节点可以选择传输或保持空闲。我们发现介质访问设置对节点具有强大的激励作用。我们表明,当碰撞较短时,传输是一种弱主导策略。这导致所有节点都在 CSMA/CA 时隙中传输,从而保证发生碰撞。相反,当碰撞较长时,不存在弱主导策略,并且在时隙开始时的某些条件下,我们得出混合策略纳什均衡。
随着可再生能源广泛接入电网,增强电力系统的灵活性和稳定性的必要性显著增加,需求响应(DR)作为一种有效的负荷管理工具受到了广泛关注。本研究深入研究基于主从博弈论的可再生能源融入需求响应策略,旨在通过博弈论框架优化参与需求响应的电网运营商和用户之间的互动机制,从而提高系统的经济效率和可靠性。在本研究中,我们首先构建了一个包含风能、太阳能等可再生能源的电力系统模型,提出了一种基于主从博弈论的需求响应策略框架,其中能源供应商作为领导者制定需求响应策略,而作为追随者的能源运营商则决定他们的消费行为以最大化自己的利益。该策略允许参与者根据实时市场信息和可再生能源产出的变化调整策略,实现需求响应资源的优化调度。通过理论分析与仿真实验,结果表明需求响应策略通过调度四种不同的购电方式对能源运营商和能源供应商各自的收益产生了影响,验证了需求响应策略在降低电网运营成本、增强系统对可再生能源波动的适应能力、激励用户积极参与需求响应方面的有效性。综上所述,本研究提出的基于主从博弈论的可再生能源接入需求响应策略不仅促进了电网的经济高效运行,也为未来智能电网的发展提供了重要的理论支撑和技术参考。
弗拉基米尔·普京是不是一个糟糕的战略家,也许是不理性的?俄罗斯之前的军事活动,例如 2014 年吞并克里米亚,在国际上获得的收益有限,但付出了巨大的经济和声誉代价。然而,正如 2022 年入侵乌克兰所表明的那样,普京愿意投入军事力量,尽管要付出制裁和其他可能的报复的代价。这个三人同时进行的游戏最初于 2021 年 6 月创建,展示了弗拉基米尔·普京总统的国内和国际考虑可能导致俄罗斯军事行为变得不可预测。在罗伯特·普特南的“两级游戏”的这个扩展版本中,普京总统理性地将国际舞台用作操纵国内观众的场所。他不是一个糟糕的战略家;他在玩另一种游戏——为了自己的利益。这款游戏预示了俄罗斯对乌克兰的入侵,并描述了下一步的期望