摘要:基于模型的强化学习可以有效提高强化学习的样本效率,但是该方法中的环境模型有错误。模型错误可能会误导策略优化,从而导致次优政策。为了提高环境模型的概括能力,现有方法通常使用集合模型或贝叶斯模型来构建环境模型。但是,这些方法在计算密集型和复杂更新。由于生成的模型可以描述环境的随机性质,因此本文提出了一种基于有条件的自动编码器(CVAE)的基于模型的增强学习方法。在本文中,我们使用CVAE来学习与任务相关的表示形式,并应用生成模型来预测环境变化。考虑到多步误差积累的问题,模型适应用于最大程度地减少模拟和真实数据分布之间的差异。此外,该实验证实了所提出的方法可以学习与任务相关的表示并加速政策学习。
主要关键词