由于 ∂u ( l +1) k ∂u ( l ) j = w ( l +1) kj f ′ ( u ( l ) j ),我们有 δ ( l ) j = ∑ J k =1 δ ( l +1) k ( w ( l +1) kj f ′ ( u ( l ) j ))。
摘要 — 许多游戏都充当了人工智能 (AI) 研究的试验台,以衡量其进展。麻将是一款极具挑战性的多智能体不完美信息游戏,玩家人数众多。然而,将麻将作为 AI 试验台的一个挑战是缺乏一个快速、易于使用且为人类玩家实现流行规则的公开框架。我们提出并描述了一个开源麻将框架 Mjx,它实现了最流行的麻将规则之一,即立直麻将 (日本麻将)。我们将 Mjx 的执行速度与现有的流行开源软件进行了比较,并证明它的性能提高了 100 倍。Mjx 可在 https://github.com/mjx-project/mjx 上获得。索引术语 — 麻将、强化学习、人工智能、多智能体、不完美信息博弈。
摘要 — 尽管在游戏人工智能(AI)开发方面取得了重大突破,但麻将作为一种流行的多人不完美信息游戏仍然颇具挑战性。与围棋和德州扑克等游戏相比,麻将具有更多的不可见信息、不固定的游戏顺序和复杂的计分系统,导致强化学习过程中的奖励信号具有很高的随机性和方差。本文通过将奖励方差减少(RVR)引入到一种新的自对弈深度强化学习算法中,提出了一种麻将人工智能。RVR通过相对价值网络处理不可见性,该网络利用全局信息引导模型在具有完美信息的预言机下收敛到最优策略。此外,RVR使用预期奖励网络提高了训练稳定性,以适应复杂、动态和高度随机的奖励环境。大量实验结果表明,RVR 显著降低了麻将 AI 训练中的方差,提高了模型性能。经过在一台拥有 8 个 GPU 的服务器上仅三天的自我对战训练,RVR 在 Botzone 平台上击败了 62.5% 的对手。索引术语 — 不完全信息博弈、多智能体学习、强化学习、麻将 AI
摘要:近年来,人工智能在将棋、黑白棋等具有完美信息的游戏中已经可以与顶级职业选手相媲美,但在具有不完美信息的游戏中却只取得了部分成功。例如,一些研究人员已经在扑克游戏中实现了与顶级职业选手相媲美的人工智能,但在麻将游戏中却未能实现,麻将是一种信息不完美且复杂度高于扑克的游戏。Mizukami 等人(2013, 2014) 构建了一个接近顶级职业麻将水平的人工智能。但是,这种人工智能无法夺取一张牌来为每个 Yaku 构建一个组合。另一方面,Harada 等人构建了麻将人工智能——全手牌提取(CHE),该人工智能考虑了高概率构建的役牌。基于此工作,我们将 CHE 应用于麻将人工智能,该人工智能可以认领一张牌,从而为每个役牌构建一个组合。在使用 CHE 的麻将游戏中,所提出的人工智能的有效性得到了证实。