摘要 - 机器人增强学习(RL)的实际数据的高成本导致模拟器的广泛使用。尽管在建立更好的动态模型方面为模拟器与现实世界匹配,但在模拟与现实世界之间存在另一个经常被忽视的不匹配,即可用培训任务的分布。现有的课程学习技术进一步加剧了这种不匹配,从而在不考虑其与现实世界的相关性的情况下自动改变了模拟任务分布。考虑到这些挑战,我们认为机器人的课程学习需要基于现实世界的任务分布。为此,我们提出了扎根的课程学习(GCL),该课程将课程中的模拟任务分布与现实世界保持一致,并明确考虑了对机器人的任务以及机器人过去的执行方式。我们使用谷仓数据集在复杂的导航任务上验证GCL,与州专家设计的状态CL方法和一项课程相比,成功率高6.8%和6.5%。这些结果表明,GCL可以通过接地自适应课程中现实世界中的模拟任务分布来提高学习效率和导航性能。
主要关键词