诸如Dominion之类的抽象甲板构建游戏对游戏AI研究提出了尚未解决的挑战。卡片相互作用以及对游戏配置的策略的相对强度产生的复杂性导致计算机代理仅限于简单策略。本文介绍了最新进步在几何深度学习到甲板构建游戏中的第一个应用。我们利用了全面的基于multiset的游戏表示,并使用适合支持可变大小操作集的软批评算法来训练策略。提出的模型是第一个成功的基于学习的代理,它在不依赖启发式方法的情况下做出所有决策并支持更广泛的游戏配置。它超过了所有基于学习的方法的性能,并且只能在某些游戏配置中的基于搜索的方法表现出色。此外,该论文还提出了诱导代理人表现出新型人类游戏策略的修改。最后,我们表明,基于卡组合的实力策略需要强化学习算法,能够发现和执行精确的策略,同时忽略更简单的次级政策,并具有更高的即时奖励。
主要关键词