掌握Stratego,不完美的信息的经典游戏

游戏玩法人工智能(AI)系统已发展到新的边界。

来源:DeepMind - 新闻与博客

研究

掌握Stratego,不完美的信息的经典游戏

出版了1222年12月1日,Authorsjulien Perolat,Bart de Vylder,Daniel Hennes,Eugene Tarassov,Florian Strub和Karl Tuyls
已发布
2022年12月1日
作者
Julien Perolat,Bart de Vylder,Daniel Hennes,Eugene Tarassov,Florian Strub和Karl Tuyls

DeepNash学会通过结合游戏理论和无模型的深度RL

游戏玩法人工智能(AI)系统已发展到新的边界。 Stratego是一款经典的棋盘游戏,比国际象棋和棋子更复杂,比扑克更加艰难,现在已经掌握了。我们发表在科学上,我们介绍了Deepnash,他是AI代理商,他通过与自己进行比赛,从头到头到人类专家级别学习了游戏。

科学发表 deepnash

DeepNash使用一种基于游戏理论和无模型的深钢筋学习的新方法。它的游戏风格会收敛到NASH平衡,这意味着它的比赛对于对手来说很难利用。实际上,如此艰难的是,Deepnash在世界上最大的在线Stratego平台Gravon的人类专家中均获得了历史最高的排名。

棋盘游戏历史上一直是AI领域进步的一种度量,使我们能够研究人类和机器如何在受控环境中制定和执行策略。与国际象棋和棋子不同,Stratego是一款不完美的信息:玩家无法直接观察对手作品的身份。

这种复杂性意味着其他基于AI的Stratego系统努力超越业余水平。这也意味着,一种非常成功的AI技术称为“游戏树搜索”,以前用来掌握许多完美信息游戏,对于Stratego来说不足以扩展。因此,Deepnash完全远远超出了游戏树搜索。

认识Stratego

左: 中间: 正确: alphazero
国际象棋,扑克,GO和Stratego之间差异的规模。

寻求平衡

我们的论文)。

期望意外的

游戏1