获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
强化学习(RL)是决策问题中广泛的技术,构成了两个基本操作 - 政策评估和政策改进。提高学习效率仍然是RL的关键挑战,许多努力着重于使用合奏批评来提高政策评估效率。,当使用多个批评家时,政策改进过程中的演员可以获得不同的梯度。先前的研究将这些梯度合并在一起而没有考虑它们的分歧。因此,优化政策改进计划对于提高学习效率至关重要。本研究的重点是调查合奏批评家对政策改进引起的差异分歧的影响。我们介绍了梯度方向不确定性的概念,以此来衡量政策改进过程中使用的梯度之间的分歧。通过解决梯度之间的分歧,我们发现梯度方向不确定性较低的过渡在政策改进过程中更可靠。基于此分析,我们提出了一种称为von Mises-fisher经验重新采样(VMFER)的方法,该方法通过重新采样过渡过渡和为梯度方向不确定性较低的过渡提供了更高的信心来优化政策改进过程。我们的实验表明,VMFER显着地执行基准,并且特别适合RL中的整体结构。