常见错误:大多数学生都知道,零和游戏中混合的意义是使对手猜测。无论他们是否讨论了最大的最大速度,他们为此获得了10分。在非零和游戏中,他们讨论了混合策略与纯粹的策略(即使他们的讨论也适用于零和零游戏),或者非零与零和零和零和零游戏(即使它也适用于纯策略)。粗略地说,没有明确提及一致性论点的人在10到15之间(可能平均12个),而那些这样做的人则在17至20之间。这两个组中的成绩差异来自他们提供的其他(和不必要的)信息的正确性。
上一讲重点研究了有限战略形式博弈中的战略决策。我们介绍了著名的纳什均衡解决方案概念,该概念可视为所有参与者都充当应急优化者的行动概况。在不存在主导策略的情况下,我们将纳什均衡解决方案概念视为战略行为的合理描述,并重点分析与此建模选择相关的关键问题,这些问题涉及纳什均衡的存在性和唯一性。与此描述性建模选择相关的挑战之一是,纳什均衡不一定存在于给定博弈中,因此此建模选择不完整且不令人满意。本章将重点解决此问题,将我们的注意力从纯策略转移到混合策略。
我们研究在无法获得梯度的情况下计算连续动作博弈的近似纳什均衡的问题。这种游戏访问在强化学习环境中很常见,其中环境通常被视为黑匣子。为了解决这个问题,我们应用了零阶优化技术,将平滑梯度估计量与均衡寻找动力学相结合。我们使用人工神经网络来模拟玩家的策略。具体而言,我们使用随机策略网络来模拟混合策略。这些网络除了接收观察结果外,还接收噪声作为输入,并且可以灵活地表示任意依赖于观察结果的连续动作分布。能够模拟这种混合策略对于解决缺乏纯策略均衡的连续动作博弈至关重要。我们使用博弈论中纳什收敛指标的近似值来评估我们方法的性能,该指标衡量玩家从单方面改变策略中可以获得多少益处。我们将我们的方法应用于连续的 Colonel Blotto 游戏、单品和多品拍卖以及可见性游戏。实验表明,我们的方法可以快速找到高质量的近似均衡。此外,它们还表明输入噪声的维度对于性能至关重要。据我们所知,本文是第一篇解决具有无限制混合策略且没有任何梯度信息的一般连续动作游戏的论文。
2021年初,疫情病例不断增加,使得在线交易(市场)更加普遍,市场公司之间的竞争也更加激烈。营销策略竞争可以用博弈论的方法来检验。本研究旨在确定市场中的最佳营销策略,从而增加市场份额。从收益矩阵的数据处理来看,不存在最大值与最小值不相同的鞍点,因此纯策略不是最优策略。此外,使用POM-QM程序处理数据,以确定每个市场的最佳营销策略值。使用混合策略在市场之间进行博弈。在Shopee和Tokopedia的游戏中,最佳博弈值为9%。在第二场游戏Shopee和Lazada中,最佳博弈值为10%。在Shopee和Bukalapak的游戏中,最佳博弈值为8%。在Shopee和Blibli的游戏中,最佳博弈值为16%。在Tokopedia和Lazada的游戏中,最佳博弈值为10%。在Tokopedia和Bukalapak游戏中,最佳游戏价值为9%。在Tokopedia和Blibli游戏中,最佳游戏价值为9%。在Lazada和Bukalapak游戏中,最佳游戏价值为11%。在Lazada和Blibli游戏中,最佳游戏价值为13%。在上一款游戏中,Bukalapak和Blibli,最佳游戏价值为14%。
1.1 背景信息。随着量子计算的发展,David A. Meyer 于 1999 年首次将其与博弈论相结合 [Mey99]。为了找到一种更好的策略来提高个人的预期收益,Meyer 应用了通用量子算法并生成了一种量子策略,并证明该策略始终至少与经典策略一样好。这一发现的结果为博弈论的新篇章——量子博弈论奠定了基础。从那时起,许多数学家、物理学家和经济学家通过构建经典博弈论模型的量子版本来探索这一领域,例如最著名的博弈论模型:囚徒困境 [EWL99]。经典博弈论和量子博弈论的主要区别在于建模中使用了纠缠机制。与传统博弈论不同,量子博弈论并不采用纯策略或混合策略,而是假设博弈者共享一个(或多个,尽管这类模型不在本研究范围内)量子比特,并且他们的策略基于在两个不同基础上对该量子比特的测量进行评估。自从量子博弈论诞生以来,它就备受赞誉和批评,对它的探索也面临挑战。由于量子博弈论的性质复杂,涉及多个知识领域,因此需要物理学、计算机科学、数学和经济学方面的背景,这为想要进入该领域的研究人员设定了很高的门槛。另一个重要的批评是,到目前为止,量子博弈论的研究还局限于经济学现有的知识范围,因此未能为其带来新的投入 [Lev05]。然而,有理由怀疑这种情况将会改变 [DJL05],因此量子博弈论在现实生活中的适用性是一个持续讨论的话题。
资料来源1波特Novelli,目的感知:隐式协会研究,2021。2 Zeno,2020 Zeno的目的力量研究,2020年。3 Deloitte Insights,在2019年第四次工业革命中获得的成功。4 NYU Stern可持续业务中心(CSB),CSB可持续市场份额指数,2020年。5 CECP,目的回报:危机前后,2020年。6公正的资本,公正的业务,更好的利润率,2019年6月。在达到最高五分位数的公司中,在达到利益相关者期望的最低25%的公司中,获得了最高五分位数的公司。7纯策略,产品可持续性的途径,2014年。8 Nate Dvorak,“任务驱动的工作场所的三种方式”,盖洛普,2017年5月。9波特Novelli,目的感知。10 Fast Company,“大多数千禧一代都会在[SIC]对环境负责的公司工作”,2019年。 对美国大公司1,000名员工的调查。 11 Ronald Cohen和George Serafeim,“如何衡量公司的真正影响”,《哈佛商业评论》,2020年9月。 在2018年有正EBITDA的1,694家公司中的百分比。 12 Deloitte,《信托化学》,2020年。10 Fast Company,“大多数千禧一代都会在[SIC]对环境负责的公司工作”,2019年。对美国大公司1,000名员工的调查。11 Ronald Cohen和George Serafeim,“如何衡量公司的真正影响”,《哈佛商业评论》,2020年9月。在2018年有正EBITDA的1,694家公司中的百分比。12 Deloitte,《信托化学》,2020年。