我们通过概括的镜头研究目标条件的RL,但不是从传统的随机增强和域随机化的意义上。相反,我们旨在学习针对地平线的概括的目标指导的政策:在训练以实现附近的目标(这很容易学习)之后,这些政策应该成功实现遥远的目标(这是非常具有挑战性的学习)。In the same way that invariance is closely linked with generalization is other areas of machine learning (e.g., normalization layers make a network invariant to scale, and therefore generalize to inputs of varying scales), we show that this notion of horizon generalization is closely linked with invariance to planning: a policy navigating towards a goal will select the same actions as if it were navigating to a waypoint en route to that goal.因此,经过培训的实现附近目标的政策应成功实现任意途中的目标。我们的理论分析证明,在某些假设下,视野概括和计划不变性都是可能的。我们提出了新的实验结果,并从先前的工作中回忆起,以支持我们的理论结果。综上所述,我们的结果为研究在机器学习的其他领域开发的不变性和概括技术的方式可能会适应以实现这种诱人的属性。
主要关键词