详细内容或原文请订阅后点击阅览
解开策略梯度和强化
探索基于策略的方法并深入研究策略梯度
来源:AI夏令营这次,我们将专注于另一类强化学习算法,即基于策略的方法。如果你还记得的话,在无模型强化学习方面,主要有两类技术。
我们在前两篇文章中分析了前者,在那两篇文章中,我们讨论了 Q 学习和深度 Q 网络,以及对基本模型的不同改进,例如双深度 Q 网络和优先重放。在这里和这里查看它们。
这里 这里让我们快速回顾一下。请记住,我们将问题定义为马尔可夫决策过程,我们的目标是找到最佳策略,即从状态到动作的映射。换句话说,我们想知道在给定状态下具有最大预期回报的动作是什么。在基于价值的方法中,我们通过查找或近似价值函数然后提取策略来实现这一点。如果我们完全抛弃值部分并直接找到 thePolicy,结果会怎样?这就是基于 Policy 的方法所做的。
别误会我的意思。 Q 学习和深度 Q 网络非常棒,它们被用在很多应用中,但是基于策略的方法提供了一些不同的优势:
- 它们更容易收敛到局部或全局最大值,并且不会受到振荡的影响它们在高维或连续空间中非常有效它们可以学习随机策略(随机策略给出动作的概率分布,而不是确定性动作。它们用于随机环境,它们将其建模为部分可观察的马尔可夫决策过程,我们不确定每个动作的结果)
它们更容易收敛到局部或全局最大值,并且不会受到振荡的影响
它们在高维或连续空间中非常有效
连续 随机 概率分布 πθ(a∣s)=P[a∣s]\pi_{\theta}(a | s)=P[a | s]