详细内容或原文请订阅后点击阅览
信任区域和近端策略优化 (TRPO 和 PPO)
信任区域策略优化与近端策略优化
来源:AI夏令营欢迎踏上另一段揭开强化学习背后秘密的旅程。这一次,我们将退后一步,回到策略优化,以介绍两种新方法:信任区域策略优化 (TRPO) 和近端策略优化 (PPO)。请记住,在策略梯度技术中,我们尝试使用梯度下降来优化策略目标函数(预期累积奖励)。策略梯度对于连续和大空间非常有用,但也存在一些问题。
强化学习背后的秘密尤其是最后一个问题困扰了研究人员很长时间,因为很难为整个优化过程找到合适的学习率。小的学习率可能导致梯度消失,而大的学习率可能导致梯度爆炸。一般来说,我们需要一种方法来改变策略,既不能太多,也不能太少,甚至最好能一直改进我们的策略。该方向的一篇基础论文是:
信任区域策略优化 (TRPO)
为了确保策略不会移动太远,我们在优化问题中添加了一个约束,以确保更新后的策略位于信任区域内。信任区域被定义为函数的局部近似值准确的区域。好的,但这是什么意思?在信任区域中,我们确定最大步长,然后找到该区域内策略的局部最大值。通过迭代继续相同的过程,我们找到全局最大值。我们还可以根据新近似值的优劣来扩大或缩小区域。这样,我们就可以确定新策略是值得信赖的,不会导致严重的策略退化。我们可以使用 KL 散度(你可以将其视为两个概率分布之间的距离)以数学方式表达上述约束:
新旧策略之间的 KL 散度必须低于 delta (δ),其中 delta 是区域的大小。