摘要 - 离线目标条件的强化学习(GCRL)的目的是通过脱机数据集的稀疏重新解决目标解决目标任务。虽然先前的工作已经阐明了代理商学习近乎最佳策略的各种方法,但在处理复杂环境(例如安全限制)中处理各种约束时,这些方法会遇到限制。其中一些方法优先考虑目标,而无需考虑安全性,而其他方法则以牺牲培训效率为代价而过度关注安全性。在本文中,我们研究了限制离线GCRL的问题,并提出了一种称为基于恢复的监督学习(RBSL)的新方法,以完成具有各种目标的安全至关重要的任务。为了评估方法性能,我们基于具有随机定位的障碍物的机器人提取环境建立基准测试,并使用专家或随机策略来生成离线数据集。我们将RBSL与三种离线GCRL算法和一种离线安全RL算法进行比较。结果,我们的方法在很大程度上可以执行现有的最新方法。此外,我们通过将RBSL部署在真正的熊猫机械手上来验证RBSL的实用性和有效性。代码可在https://github.com/sunlighted/rbsl.git上找到。
主要关键词