深度 Q 学习和深度 Q 网络

了解什么是 Q 学习并构建深度 Q 网络来玩游戏

来源:AI夏令营

强化学习之旅仍在继续……现在是时候分析臭名昭著的 Q 学习,看看它是如何成为人工智能领域的新标准的(在神经网络的帮助下)。

首先。在上一篇文章中,我们了解了强化学习背后的基本概念,并使用代理、环境、状态 (S)、动作 (A) 和奖励 (R) 来构建问题。我们讨论了如何将整个过程描述为马尔可夫决策过程,并介绍了术语“策略”和“价值”。最后,我们对现有的基本方法进行了快速的高级概述。

最后一篇文章

请记住,目标是找到最佳策略,而策略是状态和动作之间的映射。因此,我们需要找到在特定状态下要采取哪些行动,以最大化我们的预期奖励。找到最佳策略的一种方法是利用价值函数(一种无模型技术)。

现在我们来了解一下新内容。事实上,目前使用的值函数有两个。状态值函数 V(s) 和动作值函数 Q(s, a)。

你可能会问,它们有什么区别?第一个值是特定状态的值。第二个值是该状态的值加上该状态下所有可能动作的值。

Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right]Qπ(s,a)=Eπ​[Rt​∣st​=s,at​=a] Qπ(s,a)=Eπ[Rt∣st=s,at​=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right]Qπ(s,a)=Eπ​[Rt​∣st​=s,at​=a] Qπ(s,a)=Eπ[Rt∣st=s,at​=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right] Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right] Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right] Qπ(s,a)=Eπ[Rt∣st=s,at=a] Q π ( s , a = E π [Rt∣st=s,at=a] [ Rt R t st s t = s , 位于 a t = a ] Q^{\pi}(s, a)=\mathbb{E}_{ \pi}\left[R_{t} | s_{t}=s, a_{t}=a\right] Qπ(s,a)=Eπ​[Rt​∣st​=s,at​=a] Qπ(s,a)= Q π π π π π π π π ( s , a ) = Eπ​[Rt​∣st​=s,at​=a] Eπ​ E E π