摘要 - 开放式学习从使用符号方法来实现目标表示,因为它们提供了为有效且可转移的学习构建知识的方法。但是,依赖符号推理的现有层次增强学习(HRL)方法通常受到手动目标表示,因此通常受到限制。自主发现符号目标表示的挑战是它必须保留关键信息,例如环境动态。在本文中,我们提出了一种通过紧急表示(即组在一起)在任务中具有相似作用的环境状态集的新兴表示的发展机制。我们引入了一种封建HRL算法,该算法同时了解目标表示和层次结构政策。该算法使用神经网络工作的符号可及性分析来近似状态集之间的过渡关系并确定目标表示。我们在复杂的导航任务上评估了我们的方法,表明学习的表示形式可解释,可转移,并导致数据有效学习。