从演示中学习(RLFD)的强化学习已成为一种有效的方法,它通过将专家演示融合到加强学习(RL)培训,利用模仿学习(IL)和RL的优势。但是,现有的算法依赖于离线演示,这可以引入示例和实际培训环境之间的分配差距,从而限制其性能。在本文中,我们提出了一种新颖的方法,并从在线演示中学习(RL- fold),该方法利用在线演示来解决这一限制,确保代理商从相关和最新的场景中学习,从而有效地弥合了分发差距。与典型行为者算法中使用的常规政策网络不同,Rlfold引入了一个策略网络,该策略网络输出两个标准偏差:一个用于探索,另一个用于IL培训。这种新颖的设计使代理可以适应RL和IL固有的不同水平。此外,我们引入了由在线专家指导的探索过程,并结合了基于不确定性的技术。我们对Carla Nocrash基准测试的实验证明了Rlfold的有效性和效率。没有明显的编码器和单摄像头设置,RLFOLD在此评估中也超过了最新方法。这些结果在有限的源源中实现,重点介绍了RLFOLD是现实世界应用的高度有希望的解决方案。
主要关键词