离线增强学习(RL)旨在根据历史数据改善目标政策而不是行为政策。离线RL的一个主要问题是分配转移导致Q值估计的分布转移。大多数现有的作品都集中在行为克隆(BC)或最大化Q学习方法以抑制分布转移。BC方法试图通过将目标策略限制为离线数据来减轻转移,但它使学习的策略高度保守。另一方面,最大化Q学习方法采用悲观的机制来通过根据动作的不确定性来最大化Q值和惩罚Q值来产生动作。但是,生成的措施可能是算法的,从而导致预测的Q值高度不确定,这反过来又将误导该策略以生成下一个动作。为了减轻分配转移的不利影响,我们建议通过统一Q学习和行为克隆以应对探索和剥削难题来隐含和明确地限制政策。对于隐式约束方法,我们建议通过致力于使目标策略和行为策略的行动无法区分的生成对抗网络统一行动空间。对于显式约束方法,我们会提出多重重要性采样(MIS),以了解每个状态行动对的优势权重,然后将其用于抑制或充分使用每个状态行动对。D4RL数据集上的广泛实验表明,我们的方法可以实现出色的性能。MAZE2D数据上的结果表明,MIS与单个重要性采样更好地解决了异质数据。我们还发现MIS可以有效地稳定奖励曲线。关键字:Q学习,行为克隆,悲观机制,多重重要性采样。
主要关键词