摘要:基于模型的规划对于提高强化学习 (RL) 中的样本效率和泛化能力大有裨益。我们表明,基于能量的模型 (EBM) 是一种很有前途的模型,可用于基于模型的规划。EBM 自然支持在给定起始和目标状态分布的情况下推断中间状态。我们提供了一种在线算法来训练 EBM,同时与环境交互,并表明 EBM 允许比相应的前馈网络更好的在线学习。我们进一步表明,EBM 支持最大熵状态推断,并且能够生成不同的状态空间计划。我们表明,纯粹在状态空间中进行推断(没有规划动作)可以更好地泛化到环境中以前看不见的障碍物,并防止规划者通过应用非典型动作序列来利用动态模型。最后,我们表明,在线 EBM 训练自然会导致有意计划的状态探索,其表现明显优于随机探索。
主要关键词