摘要。基于蒙特 - 卡洛算法的效率很大程度上依赖于随机搜索启发式,该搜索通常是使用域知识手工制作的。为了提高这些方法的通用性,新算法(例如嵌套推出策略适应(NRPA))已使用在搜索过程中收集的数据在线培训的手工制作的启发式方法代替了手工制作的启发式方法。尽管策略模型的表现力有限,但NRPA还是能够超过传统的蒙特卡洛算法(即不学习)在包括Morpion Solitaire在内的各种游戏中。在本文中,我们将蒙特卡罗搜索与基于事先训练的神经网络的更加紧迫的非线性策略模型相结合。然后,我们演示了如何使用此网络以通过Morpion Solitaire游戏的这种新技术获得最先进的结果。我们还使用NeuralNRPA作为专家来培训专家迭代的模型。
主要关键词