摘要 混合策略通常根据其保证的预期收益进行评估。这并不总是可取的。在本文中,我们考虑最大化预期收益与玩家实际目标相偏离的游戏。为了解决这个问题,我们引入了 ( u, p )- 最大最小策略的概念,该策略确保以至少 p 的概率获得 u 的最小效用。然后,我们给出了寻找这些游戏的 ( u, p )- 最大最小策略问题的近似算法。我们考虑的第一个游戏是 1921 年推出的、经过深入研究的游戏“布洛托上校”。在布洛托上校游戏中,两位上校将他们的军队分配到一组战场上。每个战场都由投入更多军队的上校赢得。每个上校的收益是她赢得的战场的加权数量。我们表明,对于 Colonel Blotto 的某些应用,最大化玩家的预期收益并不一定能最大化其获胜概率。例如,在总统选举中,玩家的目标是最大化赢得超过一半选票的概率,而不是最大化他们获得的预期票数。我们为该游戏的连续版本的自然变体提供了一个精确算法。更一般地,我们提供了常数和对数近似算法来查找 ( u, p )- 最大最小策略。我们还引入了 Colonel Blotto 的安全游戏版本,我们称之为审计游戏。它在两个玩家之间进行,一个是防守者,一个是攻击者。防守者的目标是防止攻击者更改 Colonel Blotto 实例的结果。同样,最大化防守者的预期收益不一定是最佳的。因此,我们为 ( u, p )- 最大最小策略提供了一个常数近似值。
我们研究在无法获得梯度的情况下计算连续动作博弈的近似纳什均衡的问题。这种游戏访问在强化学习环境中很常见,其中环境通常被视为黑匣子。为了解决这个问题,我们应用了零阶优化技术,将平滑梯度估计量与均衡寻找动力学相结合。我们使用人工神经网络来模拟玩家的策略。具体而言,我们使用随机策略网络来模拟混合策略。这些网络除了接收观察结果外,还接收噪声作为输入,并且可以灵活地表示任意依赖于观察结果的连续动作分布。能够模拟这种混合策略对于解决缺乏纯策略均衡的连续动作博弈至关重要。我们使用博弈论中纳什收敛指标的近似值来评估我们方法的性能,该指标衡量玩家从单方面改变策略中可以获得多少益处。我们将我们的方法应用于连续的 Colonel Blotto 游戏、单品和多品拍卖以及可见性游戏。实验表明,我们的方法可以快速找到高质量的近似均衡。此外,它们还表明输入噪声的维度对于性能至关重要。据我们所知,本文是第一篇解决具有无限制混合策略且没有任何梯度信息的一般连续动作游戏的论文。
001:伪造货币 002:信用卡诈骗 003:用漂白剂制造塑料炸药 004:撬开万能锁 005:撬锁艺术 I 006:撬锁艺术 II 007:固态氧气炸弹 008:高科技复仇:米色盒子(新版本 4.14) 009:二氧化碳炸弹 010:铝热剂炸弹(新版本,4.14) 011:接触炸药 012:信件炸弹 013:油漆炸弹 014:让汽车下地狱的方法 015:你讨厌学校吗?(新修订版,4.14) 016:与电话有关的破坏行为 017:高速公路警察雷达干扰 018:烟雾弹 019:邮箱炸弹 020:热线汽车 021:凝固汽油弹 022:肥料炸弹 023:网球炸弹 024:软盘炸弹 025:未公开的电话号码 (新修订版,4.14) 026:保险丝 027:如何制作硝酸钾 028:爆炸的灯泡 029:水下点火器 030:自制爆炸炮 031:化学当量表 032:电话窃听器 033:地雷 034:不同类型的莫利托夫鸡尾酒 035:电话系统教程 I 036:电话系统教程 II 037:联盟电话会议基础 038:Aqua Box 计划 039:兴登堡炸弹 040:如何徒手杀人 041:电话系统教程 III 042:黑匣子计划 043:Blotto Box 044:吹管 045:棕匣子计划 046:碳化钙炸弹 047:更多让汽车下地狱的方法 048:盗取找零机(新修订版,4.14) 049:透明盒计划 050:CNA 号码列表 051:电子恐怖主义 052:如何在没有 2600hz 或 M-F 的情况下开始会议 053:炸药 054:汽车排气火焰喷射器 055:如何闯入 BBS Express 056:燃烧弹 057:引信炸弹 058:通用炸弹 059:绿箱计划 060:便携式榴弹发射器 061:基础黑客教程 I 062:基础黑客教程 II 063:黑客 DEC 064:无害炸弹