我们研究了脱颖而出的强化学习(RL),在该政策上,该政策在源领域进行培训并部署到不同的目标领域。我们旨在通过在线分布强大的马尔可夫决策过程(DRMDP)来解决这一问题,其中学习算法在源域中与源域进行了积极相互作用,同时寻求最佳的动态,这是在源源域不确定的过渡域的不确定性集合之内的最佳动态。我们介绍了对在线DRMDP的首次研究,其功能近似是偏外的RL。我们发现DRMDPS的双重公式可以诱导非线性,即使标称过渡内核是线性的,导致误差传播。通过使用总变化差异设计D型矩形不确定性集,我们删除了此附加的非线性 - 并绕过误差传播。然后,我们引入了DR-LSVI-UCB,这是第一个具有近似功能的动力学RL的效率高效的在线DRMDP算法,并建立了独立于状态和动作空间大小的多项式次优界限。我们的工作迈出了对具有线性函数近似的在线DRMDP的可证明效率的第一步。最后,我们通过不同的数字实验来证实DR-LSVI-UCB的性能和鲁棒性。
主要关键词