获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
颠倒的强化学习(UDRL)是解决强化学习问题的有前途的框架,该问题着重于学习命令条件条件政策。在这项工作中,我们将UDRL扩展到学习深神经网络策略的命令条件发生器的任务。我们使用HyperNeTworks完成了这一点,这是一系列快速权重程序员,该程序学会解码输入命令,代表所需的预期返回到特定于命令的权重矩阵。我们的方法是通过策略生成器(UDRLPG)被称为颠倒的增强学习,通过消除评估者或评论家以更新生成器的权重来简化可比较的技术。为了抵消由于没有评估者而引起的最后回报的增加的差异,我们将缓冲液的采样概率与其中的绝对策略数量解脱出来,该策略与简单的权重策略一起改善了算法的经验收敛。与现有算法相比,UDRLPG实现了竞争性能和高回报,有时表现出色的架构更为复杂。我们的实验表明,受过训练的发电机可以概括以创建可实现零射击返回的策略。所提出的方法似乎有效缓解与学习高度模式功能相关的一些挑战。总的来说,我们认为UDRLPG代表了在RL中实现更高的经验样本效率方面迈出的前进一步。https://github.com/jacopod/udrlpg全面实现UDRLPG