Loading...
机构名称:
¥ 1.0

将强化学习(RL)应用于稀疏的奖励 - 众所周知,由于指导信号不足,因此具有挑战性。解决此类领域的常见RL技术包括(1)从演示中学习和(2)课程学习。虽然已经详细研究了这两种方法,但很少将它们一起考虑。这是通过引入原则性的任务相位方法来自动生成课程序列来做到这一点的。使用(Subopti-Mal)演示的逆RL我们定义了一个简单的初始任务。然后,我们的任务相位方法提供了一个框架,以逐步将任务的复杂性一直延伸到目标任务,同时在每次估算中重新调整RL代理。考虑了两种相位的方法:(1)逐渐增加RL代理所控制的时间步骤的比例,以及(2)逐步淘汰指导性的信息奖励功能。我们提出的条件可以保证这些方法融合到最佳政策。对3个稀疏奖励域的实验结果表明,我们的任务相对于渐近性能,我们的任务逐步实现了最先进的方法。

任务相位:自动化课程从演示中学习

任务相位:自动化课程从演示中学习PDF文件第1页

任务相位:自动化课程从演示中学习PDF文件第2页

任务相位:自动化课程从演示中学习PDF文件第3页

任务相位:自动化课程从演示中学习PDF文件第4页

任务相位:自动化课程从演示中学习PDF文件第5页