我们提出了一种基于模型的终身强化学习方法,该方法估计分层贝叶斯后验,提炼出不同任务之间共享的共同结构。学习到的后验与基于样本的贝叶斯探索程序相结合,提高了跨一系列相关任务学习的样本效率。我们首先分析了有限 MDP 设置中样本复杂度和后验初始化质量之间的关系。接下来,我们通过引入变分贝叶斯终身强化学习算法将该方法扩展到连续状态域,该算法可以与最近的基于模型的深度 RL 方法相结合,并表现出后向迁移。在几个具有挑战性的领域的实验结果表明,我们的算法比最先进的终身 RL 方法实现了更好的前向和后向迁移性能。1