Loading...
机构名称:
¥ 1.0

摘要 — 尽管在游戏人工智能(AI)开发方面取得了重大突破,但麻将作为一种流行的多人不完美信息游戏仍然颇具挑战性。与围棋和德州扑克等游戏相比,麻将具有更多的不可见信息、不固定的游戏顺序和复杂的计分系统,导致强化学习过程中的奖励信号具有很高的随机性和方差。本文通过将奖励方差减少(RVR)引入到一种新的自对弈深度强化学习算法中,提出了一种麻将人工智能。RVR通过相对价值网络处理不可见性,该网络利用全局信息引导模型在具有完美信息的预言机下收敛到最优策略。此外,RVR使用预期奖励网络提高了训练稳定性,以适应复杂、动态和高度随机的奖励环境。大量实验结果表明,RVR 显著降低了麻将 AI 训练中的方差,提高了模型性能。经过在一台拥有 8 个 GPU 的服务器上仅三天的自我对战训练,RVR 在 Botzone 平台上击败了 62.5% 的对手。索引术语 — 不完全信息博弈、多智能体学习、强化学习、麻将 AI

通过减少奖励方差来加速麻将人工智能的训练

通过减少奖励方差来加速麻将人工智能的训练PDF文件第1页

通过减少奖励方差来加速麻将人工智能的训练PDF文件第2页

通过减少奖励方差来加速麻将人工智能的训练PDF文件第3页

通过减少奖励方差来加速麻将人工智能的训练PDF文件第4页

通过减少奖励方差来加速麻将人工智能的训练PDF文件第5页

相关文件推荐

1900 年
¥1.0