批处理增强学习(RL)旨在利用预收取的数据找到最大化动态环境中预期总奖励的最佳策略。现有方法需要对目标策略在状态或行动上或两者兼有的数据分布引起的分布所引起的分布上绝对连续的假设(例如,不存在非重叠区域)。我们提供了一种新的批次RL算法,该算法允许在离线数据分布和目标策略引起的分布之间的状态和动作空间(例如,在无限 - 休养者马尔可夫决策过程中都具有连续状态和动作之间的奇异性)。我们称我们的算法钢:奇异性吸引的增强学习。我们的算法是由对销售评估进行的新错误分析的动机,在该评估中,我们使用最大的平均差异以及分布强劲的优化,以表征由可能的奇异性引起的非政策评估的误差,并启用模型外额外的模型。通过利用悲观的思想,在某些技术条件下,我们为我们提出的算法提供了第一个有限样本的遗憾保证。与现有算法相比,只需仅需最少的数据覆盖假设即可提高批量RL的适用性和鲁棒性。另外,提出了一种几乎没有调谐的两步自适应钢。广泛的仿真研究和一个(半真实的实验实验)对我们方法在处理批处理RL中可能的奇异性方面的出色表现。
主要关键词