对于许多顺序决策问题,通常需要计划才能找到解决方案。但是,对于诸如机器人技术中遇到的域,换句函数(也称为世界模型)通常是未知的。虽然基于模型的强化学习方法学习了可以用于计划的世界模型,但此类方法受到在许多时间段应用模型应用时会累积的错误限制,并且无法重新识别计划的状态。为了解决这些问题,我们介绍了DeepCubeai,这是一种算法,该算法学习了一个世界模型,该模型代表了在离散的潜在空间中代表状态,使用增强学习学习学习一种启发式功能,该功能使用该学识渊博的模型将概括性和目标状态概括,并将学习的模型结合在一起,并将启发式功能与启发式搜索相结合,以解决问题。由于潜在空间是离散的,因此我们可以通过舍入来防止小错误的积累,我们可以通过简单地比较两个二进制向量来重新识别状态。在我们对Rubik Cube,Sokoban,Icelider和DigitJump的像素表示的实验中,我们发现DeepCubeai能够将模型应用于数千个步骤,而不会出现任何错误。此外,DeepCubeai在所有领域中解决了99%以上的测试实例,跨目标状态概括了,并且大大优于贪婪的政策,而贪婪的政策没有与学识渊博的世界模式计划。
主要关键词