深度 Q 学习和深度 Q 网络 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

深度 Q 学习和深度 Q 网络

2018年10月1日 00:00 33 Comments

了解什么是 Q 学习并构建深度 Q 网络来玩游戏

来源:AI夏令营

强化学习之旅仍在继续……现在是时候分析臭名昭著的 Q 学习，看看它是如何成为人工智能领域的新标准的（在神经网络的帮助下）。

首先。在上一篇文章中，我们了解了强化学习背后的基本概念，并使用代理、环境、状态 (S)、动作 (A) 和奖励 (R) 来构建问题。我们讨论了如何将整个过程描述为马尔可夫决策过程，并介绍了术语“策略”和“价值”。最后，我们对现有的基本方法进行了快速的高级概述。

最后一篇文章

请记住，目标是找到最佳策略，而策略是状态和动作之间的映射。因此，我们需要找到在特定状态下要采取哪些行动，以最大化我们的预期奖励。找到最佳策略的一种方法是利用价值函数（一种无模型技术）。

现在我们来了解一下新内容。事实上，目前使用的值函数有两个。状态值函数 V(s) 和动作值函数 Q(s, a)。

你可能会问，它们有什么区别？第一个值是特定状态的值。第二个值是该状态的值加上该状态下所有可能动作的值。

Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right]Qπ(s,a)=Eπ[Rt∣st=s,at=a] Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right]Qπ(s,a)=Eπ[Rt∣st=s,at=a] Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right]

Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right]

Qπ(s,a)=Eπ[Rt∣st=s,at=a]Q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[R_{t} | s_{t}=s, a_{t}=a\right] Qπ(s,a)=Eπ[Rt∣st=s,at=a] Qπ Q π ( s , a = Eπ E π [Rt∣st=s,at=a] [ Rt R t ∣ st s t = s , 位于 a t = a ] Q^{\pi}(s, a)=\mathbb{E}_{ \pi}\left[R_{t} | s_{t}=s, a_{t}=a\right] Qπ(s,a)=Eπ[Rt∣st=s,at=a] Qπ(s,a)= Qπ Q π π π π π π π π ( s , a ) = Eπ[Rt∣st=s，at=a] Eπ E E π

介绍学习文章了解 right 值函数目标 st mathbb pi 动作 Rt 成为找到策略方法 left 状态

深度 Q 学习和深度 Q 网络

其他外部链接

Tags

XiaoMi-AI