我们研究在无法获得梯度的情况下计算连续动作博弈的近似纳什均衡的问题。这种游戏访问在强化学习环境中很常见,其中环境通常被视为黑匣子。为了解决这个问题,我们应用了零阶优化技术,将平滑梯度估计量与均衡寻找动力学相结合。我们使用人工神经网络来模拟玩家的策略。具体而言,我们使用随机策略网络来模拟混合策略。这些网络除了接收观察结果外,还接收噪声作为输入,并且可以灵活地表示任意依赖于观察结果的连续动作分布。能够模拟这种混合策略对于解决缺乏纯策略均衡的连续动作博弈至关重要。我们使用博弈论中纳什收敛指标的近似值来评估我们方法的性能,该指标衡量玩家从单方面改变策略中可以获得多少益处。我们将我们的方法应用于连续的 Colonel Blotto 游戏、单品和多品拍卖以及可见性游戏。实验表明,我们的方法可以快速找到高质量的近似均衡。此外,它们还表明输入噪声的维度对于性能至关重要。据我们所知,本文是第一篇解决具有无限制混合策略且没有任何梯度信息的一般连续动作游戏的论文。
2特征方程式| λi -d f(x,µ)| = 0,其中d f(x,µ)是(x,µ)系统的雅各布矩阵,具有一对假想的根(λ(x,µ),λ(x,x,µ)),没有其他根部的根。99k(x,µ)Hopf Equilibria
•游戏可以建模现实生活中的情况,但模型实现很重要。•正常形式的非合作(战略)游戏包括玩家,玩家的策略以及为所有策略提示的功能。•各种概念可以帮助预测/分析游戏的结果: - 主要策略 - 帕累托最优性 - (纯)纳什均衡•我们分析了许多示例游戏:囚犯的困境,伙伴之战,鸡肉,惩罚,惩罚和猜测数字。•纯净的纳什平衡并不总是存在。
我们研究了具有名义政府债务和灵活价格的异质代理不完全市场经济中的均衡。与代表性代理经济不同,当政府持续存在赤字时,只要赤字水平不太大,就会存在稳态均衡。在这些均衡中,实际利率低于经济增长率。我们量化了美国的最大可持续赤字,并表明在更具再分配性的税收和转移支付制度下,该赤字较低。在基本赤字不变的情况下,存在两个稳定状态,价格水平和通货膨胀不是唯一确定的。我们描述了提供独特性的替代政策设置。我们进行了定量实验,以说明再分配和预防性储蓄如何放大价格水平上涨以应对财政直升机撒钱、赤字扩张和宽松的货币政策。我们表明,基本赤字的增加可以解释长期实际利率的下降,从而导致任何给定货币政策的通胀率上升。我们的工作强调了家庭异质性和市场不完全性在决定通胀方面的作用。
我们研究了具有名义政府债务和灵活价格的异质机构不完整的市场经济中的平衡。与代表代理商经济体不同,当政府持续存在赤字时,稳态均衡存在,前提是赤字水平不大。在这些均衡中,实际利率低于经济增长率。我们量化了美国的最大可持续赤字,并表明它在重新分配税收和转移系统下较低。具有恒定的主要缺陷,存在两个稳定状态,而且价格水平和通货膨胀率并未唯一确定。我们描述了提供独特性的替代政策设置。我们进行定量实验,以说明对财政直升机下降,赤字扩张和宽松的货币政策的重新分配和预防储蓄的增大价格上涨。我们表明,主要赤字增加可以解释长期实际利率的下降,从而导致任何给定的货币政策的通货膨胀率更高。我们的工作强调了家庭异质性和市场不完整在确定通货膨胀中的作用。
内生增长中的多重均衡:Benhabib and Perli (1994) , Benhabib and Farmer (1994) , Boldrin and Rustichini (1994) , Howitt and McAfee (1988) , Benhabib et al. (2008)