基于像素的分层策略对任务泛化的好处

强化学习从业者通常避免使用分层策略,尤其是在基于图像的观察空间中。通常,与平面策略相比,单任务性能的改进并不能证明实施层次结构所带来的额外复杂性是合理的。但是,通过引入多个决策层,分层策略可以组成较低级别的策略,以更有效地在任务之间进行概括,从而突出了多任务评估的必要性。我们通过像素模拟多任务机器人控制实验来分析层次结构的好处……

来源:Apple机器学习研究

强化学习从业者通常避免层次结构政策,尤其是在基于图像的观察空间中。通常,对扁平政策对应物的单任务性能改进并不能证明与实现层次结构相关的其他复杂性是合理的。但是,通过引入多个决策级别,层次结构可以构成较低级别的政策,以更有效地在任务之间概括,从而强调了对多任务评估的需求。我们通过来自像素的模拟多任务机器人控制实验来分析层次结构的好处。我们的结果表明,接受任务条件培训的层次结构政策可以(1)提高培训任务的性能,(2)导致改善相似任务的奖励和状态空间概括,(3)降低解决新任务所需的微调的复杂性。因此,我们认为,在建立能够在任务之间概括的增强学习体系结构时,应考虑层次结构。