模仿学习使代理可以在绩效指标未知并且未指定奖励信号时从专家演示中学习。标准模仿方法通常不适用于学习者和专家的参议员能力不匹配和示威的情况,并被未观察到的混杂偏见污染。为了应对这些挑战,已追求因果模仿学习的最新进步。但是,这些方法通常需要访问可能并非总是可用的基本因果结构,从而带来实际挑战。在本文中,我们研究了使用部分识别的规范马尔可夫决策过程(MDP)内的强大模仿学习,即使在系统动力学不是从混杂的专家演示中确定系统动力学的情况下,也允许代理商实现专家性能。特定的,首先,我们从理论上证明,当MDP中存在未观察到的混杂因素(UCS)时,学习者通常无法模仿专家的表现。然后,我们在部分能够识别的设置中探索模仿学习 - 从可用的数据和知识中,转移分布或奖励功能是无法确定的。增强了著名的Gail方法(Ho&Ermon,2016年),我们的分析导致了两种新颖的因果模仿算法,这些算法可以获得有效的政策,以确保实现专家绩效。
主要关键词