这项研究有助于理解对抗性重复相互作用中动态决策行为的理解。使用众所周知的竞争游戏,在两人实验中,我们在许多试验中成对地收集了重复游戏的数据。我们设计了一个payo矩阵,使我们能够从随机行为中分解最佳(NASH)行为。我们的分析表明,参与者与NASH或随机不一致。我们也没有找到文献中建议的环状行为的证据。有趣的是,人类行为是非常异构的。虽然有些球员遵循常见的“赢 /失速”启发式,但许多其他玩家也遵循“换档 /输掉式停车”启发式启发式。< / div>我们总结了我们的结论,以研究对抗情况下的行为动态。
凯恩斯(Keynes)著名地将股票市场与美容竞赛进行了比较。使用现代经济学的语言,可以将凯恩斯的选美比赛概念视为一种协调游戏:代理商的Payo Q是经济的基本特征以及其他代理商所采取的行动的函数。换句话说,在决定其最佳策略时,代理人不仅要预测基本面,还要预测他人的行为。事实证明,这是考虑一系列经济问题的一种非常有用的方式:从货币攻击到银行运行到投资和招聘。我们将分析协调游戏的抽象数学模型,该模型将构成以下课程中更具体的经济应用的基础。建议阅读:Morris and Shin(2002),Edmonds(2013),Hellwig(2002),Morris and Shin(1998),Angeletos and Werning(2006),Bolton等。al。(2012)。
许多经济和政治互动都围绕着时机展开。一个众所周知的例子是消耗战博弈,其中每个玩家的决定是何时退出,游戏以坚持时间较长的玩家获胜而结束。这些博弈由 Maynard Smith (1974) 引入,后来由许多作者进行分析。Hendricks 等人 (1988) 描述了在紧凑时间间隔内进行的完全信息、连续时间消耗战的均衡收益。文献中研究了几种类似于消耗战的模型。Ghemawat 和 Nalebuffi (1985) 分析了两个竞争公司在衰退市场中的退出决策,并假设如果两家公司都没有退出市场,市场最终将无利可图,另见 Fine 和 Li (1989)。 Fudenberg 和 Tirole (1986) 研究了一个不完全信息设置,其中任何一个公司都认为永远占据主导地位的可能性很小。最近,Bilodeua 和 Slivinski (1996) 研究了一个需要志愿者提供公共服务的模型,而 Bulow 和 Klemperer (1999) 将多方拍卖视为普遍的消耗战。另一类重要的计时游戏是抢占游戏,其中每个玩家都喜欢先停止。然后,如果两个玩家同时停止,分析就会对收益的指定很敏感,参见 Fudenberg 和 Tirole (1985, 1991 p.126-128)。还有另一类计时游戏
众所周知,在所有有限的游戏中,有未耦合的学习启发式方法,导致NASH平衡。玩家为什么要使用这种学习启发式方法?我们表明,在所有有限的游戏中,没有任何未耦合的学习启发式启发式,导致了舞台游戏的纳什均衡,这是玩家有动机采用的动机,这是进化稳定的,或者可以“学习自身”。相反,玩家有动力在战略上教导这样的学习操作人员,以至少确保Stackelberg领导者Payo虫。当仅限于通用游戏,两人游戏,潜在游戏,具有战略性补充或2×2游戏的游戏时,结果仍然完好无损,其中已知学习是“不错的”。更普遍地,它也适用于无耦合的学习启发式方法,导致相关的平衡,可合理的结果,迭代的可接受的结果或最小的路缘集合。如果也考虑了此类以外的某些通用游戏,则可能仅限于“战略性地”游戏失败。
个人的所在地决定了他们的工作和教育机会、便利设施和住房成本。我们将个人的地点选择概念化为投资“地点资产”的决定。该资产的当前成本等于该地点的租金,未来通过更好的工作和教育机会获得回报。与任何资产一样,地点资产的储蓄者通过前往未来回报率高的昂贵地点将资源转移到未来。相反,借款人通过前往几乎没有其他优势的廉价地点将资源转移到现在。持有地点资产取决于它与其他资产的比较,不同之处在于地点资产不受借款限制。我们提出了一个动态位置模型,并推导出代理人在经历收入冲击后的流动选择。我们记录了位置的投资维度,并使用来自纳税申报表的法国个人面板数据确认了我们理论的核心预测。
在由 ? 发起的最简单的战略沟通教科书模型中,一个“发送者”私下观察自然状态并从某个给定的消息空间中选择一条无成本消息。然后,“接收者”观察该消息并采取影响双方收益的行动。这种传统方法的一个标志是消息没有内在含义;它们的内容 - 即它们与基础状态的统计关系 - 建立在发送者-接收者博弈的纳什均衡中。根据此解决方案概念的标准稳态解释,接收者可以访问完全揭示状态和消息之间统计关系的“数据集”。在本文中,我们重新审视基本的发送者-接收者模型,并放宽接收者完全有能力解释均衡消息的假设。我们关注接收者有两个可用操作 y 和 n 的设置。在每一种自然状态中,只有其中一种操作是合适的。对于 y 而言,适合采取适当行动的状态的先验概率为 π < 1
摘要 在重复博弈中,共谋和非共谋结果都可以作为均衡,因此了解每种均衡类型的选择可能性至关重要。受控实验已通过实证验证了双人重复囚徒困境的选择标准:始终背叛的吸引盆。该预测装置使用博弈原语来测量代理宁愿无条件背叛而不是尝试有条件合作的信念集。这种信念测量反映了对他人行为的战略不确定性,其中当盆地测量满时预测非合作结果,当盆地测量为空时预测合作结果。我们将这种选择概念扩展到多人社交困境并通过实验测试预测,操纵玩家总数和收益延伸。我们的结果证实了该模型是预测长期合作的工具,同时也说明了处理初次相遇时的一些局限性。(JEL:C73、C92、D91)
1 关于这些情况的讨价还价和威慑的讨论比比皆是。例如,关于南海,请参阅 Kaplan (2014) 或 Coy (2021);关于俄罗斯,请参阅 Allison (2013) 或 Freedman (2019);关于网络威慑,请参阅 Baliga、Bueno de Mesquita 和 Wolitzky (2020) 及其参考文献。对这些冲突不那么以美国为中心的观点会认识到双方都有机会宣称领土并发起冲突。在本文中,我考虑了非对称情况(一方是“索赔方”,另一方是“响应方”)和对称情况(双方都扮演两个角色)。2 大量环境经济学文献研究了不完善监控下的激励计划(Shortle 和 Horan,2001)。迄今为止,有关媒体审查的经济学文献强调了一系列不同的问题(Prat 和 Strömberg,2013 年)。3 与我的模型不同,在标准效率工资和政治代理模型(例如 Shapiro 和 Stiglitz,1984 年;Ferejohn,1986 年)中,工人/政客过去行为的收益影响在解雇决定/选举时就已消失,因此,对于雇主/公民来说,各种隐性合同都是可信的。
1 关于这些情况的讨价还价和威慑的讨论比比皆是。例如,关于南海,请参阅 Kaplan (2014) 或 Coy (2021);关于俄罗斯,请参阅 Allison (2013) 或 Freedman (2019);关于网络威慑,请参阅 Baliga、Bueno de Mesquita 和 Wolitzky (2020) 及其参考文献。对这些冲突不那么以美国为中心的观点会认识到双方都有机会宣称领土并发起冲突。在本文中,我考虑了非对称情况(一方是“索赔方”,另一方是“响应方”)和对称情况(双方都扮演两个角色)。2 大量环境经济学文献研究了不完善监控下的激励计划(Shortle 和 Horan,2001)。迄今为止,有关媒体审查的经济学文献强调了一系列不同的问题(Prat 和 Strömberg,2013 年)。3 与我的模型不同,在标准效率工资和政治代理模型(例如 Shapiro 和 Stiglitz,1984 年;Ferejohn,1986 年)中,工人/政客过去行为的收益影响在解雇决定/选举时就已消失,因此,对于雇主/公民来说,各种隐性合同都是可信的。
摘要 — 基于人工智能 (AI) 的技术通常用于根据策略和机制对决策进行建模,这些策略和机制可以为许多交互实体带来最佳收益,这些实体通常会表现出对抗行为。在本文中,我们提出了一种支持 AI 的多接入边缘计算 (MEC) 框架,该框架由配备计算功能的无人机 (UAV) 支持,以促进物联网应用。首先,基于博弈论模型确定物联网节点向无人机安装的 MEC 服务器的最佳数据卸载策略的问题,同时考虑物联网节点的通信和计算开销。通过证明博弈是子模的,证明了至少一个纯纳什均衡 (PNE) 点的存在。此外,基于最佳响应动态 (BRD) 算法的结果,或通过替代强化学习方法(即梯度上升、对数线性和 Q 学习算法),获得并研究了不同的操作点(即卸载策略),这些方法探索和学习环境以确定用户的稳定数据卸载策略。通过建模和仿真,对这些方法的相应结果和固有特征进行了严格的比较。索引术语 — 边缘计算;博弈论;强化学习;物联网;