解决复杂的,暂时扩展的任务是控制学习(RL)的长期问题。我们假设解决此类问题的一个关键要素是组成性的概念。具有学习概念和子技能的能力,这些概念和子技能可以构成解决更长的任务的能力,即层次RL,我们可以获取时间扩展的行为。但是,为层次RL获取有效但一般的抽象是极具挑战性的。在本文中,我们建议将语言用作抽象,因为它提供了独特的组合结构,实现了快速学习和组合概括,同时保持了极大的灵活性,使其适合各种问题。我们的方法学习了一个遵循指令的低级政策和高级政策,该政策可以在本质上重复跨任务的抽象,从而允许代理人使用结构化语言进行推理。为了研究组成任务学习,我们介绍了使用Mujoco物理引擎和CLEVR引擎构建的开源对象相互作用环境。我们发现,使用我们的方法,代理可以学会求解各种暂时扩展的任务,例如对象排序和多对象重排,包括来自原始像素观测值。我们的分析表明,语言的组成性质对于学习各种亚技能和系统地推广到新的亚技能至关重要,与使用相同监督的非复合抽象相比,语言的构成性质至关重要。2
主要关键词