本文使用背面计划研究了一种新的基于模型的强化学习方法:混合(近似)动态编程更新和无模型更新,类似于DYNA架构。带有学习模型的背景计划通常比无模型的替代方案(例如Double DQN)差,即使前者使用的记忆和计算更大。基本问题是,学到的模拟可能是不准确的,并且经常会产生无效的状态,尤其是在迭代许多步骤时。在本文中,我们通过将背景计划限制为一组(摘要)子目标,并仅学习本地,子观念模型来避免这种限制。这种目标空间计划(GSP)方法在计算上更有效,自然地包含了时间抽象,以进行更快的长途径计划,并避免完全学习过渡动态。我们表明,我们的GSP算法可以从抽象空间中传播价值,以帮助各种基础学习者在不同的域中更快地学习显着的速度。关键字:基于模型的增强学习,时间抽象,计划
主要关键词