颠倒的强化学习(UDRL)是解决强化学习问题的有前途的框架,该问题着重于学习命令条件条件政策。在这项工作中,我们将UDRL扩展到学习深神经网络策略的命令条件发生器的任务。我们使用HyperNeTworks完成了这一点,这是一系列快速权重程序员,该程序学会解码输入命令,代表所需的预期返回到特定于命令的权重矩阵。我们的方法是通过策略生成器(UDRLPG)被称为颠倒的增强学习,通过消除评估者或评论家以更新生成器的权重来简化可比较的技术。为了抵消由于没有评估者而引起的最后回报的增加的差异,我们将缓冲液的采样概率与其中的绝对策略数量解脱出来,该策略与简单的权重策略一起改善了算法的经验收敛。与现有算法相比,UDRLPG实现了竞争性能和高回报,有时表现出色的架构更为复杂。我们的实验表明,受过训练的发电机可以概括以创建可实现零射击返回的策略。所提出的方法似乎有效缓解与学习高度模式功能相关的一些挑战。总的来说,我们认为UDRLPG代表了在RL中实现更高的经验样本效率方面迈出的前进一步。https://github.com/jacopod/udrlpg全面实现UDRLPG
摘要。无模型增强学习(RL)算法要么学习如何将状态映射到预期的奖励,要么搜索可以最大程度地提高某些性能功能的策略。基于模型的算法,旨在学习RL环境的基础模型的近似值,然后将其与计划算法结合使用。倒置强化学习(UDRL)是一种新颖的学习范式,旨在学习如何从国家和所需命令中预测行动。此任务是作为监督学习(SL)问题提出的,并已通过神经网络(NNS)成功解决。在本文中,我们研究了功能近似算法是否也可以在UDRL框架中使用。在几个流行的最佳控制基准上执行的我们的经验表明,基于树木的方法(如随机森林和极端的树木)的性能和NNS的性能一样,具有显着的好处,从而产生了固有的策略,这些政策本质上比NN更容易解释,因此为更多的透明,安全,安全和强大的,强大的,强大的RL铺平了道路。