深层生成模型(DGM)在各个领域都表现出了巨大的成功,尤其是在使用离线数据训练的模型生成文本,图像和视频方面。同样,数据驱动的决策和机器人控制也需要从离线数据中学习发电的功能,以作为策略或政策。在这种情况下,在离线政策学习中应用深层生成模型具有巨大的潜力,并且在这个方向上进行了许多研究。但是,该领域仍然缺乏全面的审查,因此不同分支机构的发展相对独立。在本文中,我们提供了有关深层生成模型用于离线政策学习的应用的首次系统审查。,我们涵盖了五个主流深层生成模型,包括变量自动编码器,生成的对抗网络,正常的流量,变压器和扩散模型,以及它们在离线增强学习(离线RL)和模仿学习(IL)中的应用。离线RL和IL是离线政策学习的两个主要分支,是依次决策的广泛方法。值得注意的是,对于每种基于DGM的离线政策学习,我们根据DGM的使用来提炼其基本方案,CateGo-size相关工作,并在该领域中整理算法的开发过程。在主要内容之后,我们提供了有关深层生成模型和离线政策学习的深入讨论,作为摘要,我们介绍了我们对未来研究方向的观点。1这项工作为离线政策学习深度生成模型的研究进度提供了动手参考,并旨在激发改进基于DGM的离线RL或IL算法的改进。为方便起见,我们在https://github.com/lucascjysdl/dgms-forline-policy-learning上维护纸张列表。
主要关键词