摘要 — 机器人强化学习 (RL) 的真实世界数据成本高昂,导致了模拟器的广泛使用。尽管人们为构建更好的模拟器动力学模型以匹配现实世界进行了大量工作,但模拟和现实世界之间还有另一个经常被忽视的不匹配,即可用训练任务的分布。现有的课程学习技术进一步加剧了这种不匹配,这些技术会自动改变模拟任务分布,而不考虑其与现实世界的相关性。考虑到这些挑战,我们认为机器人 RL 的课程学习需要以现实世界的任务分布为基础。为此,我们提出了基于课程的学习 (GCL),它将课程中的模拟任务分布与现实世界相结合,并明确考虑赋予机器人的任务以及机器人过去的表现。我们使用 BARN 数据集在复杂的导航任务上验证了 GCL,与最先进的 CL 方法和人类专家设计的课程相比,成功率分别提高了 6.8% 和 6.5%。这些结果表明,GCL 可以通过在自适应课程中将模拟任务分布与现实世界相结合,从而提高学习效率和导航性能。
主要关键词