强化学习背后的秘密

强化学习背后的核心思想及其算法概述

来源:AI夏令营

玩 Dota2 的机器人、击败世界顶级围棋选手的 AI、擅长 Doom 的计算机。发生了什么?AI 社区忙于玩游戏有什么原因吗?提示:这是强化学习。

玩 Dota2 的机器人 擅长 Doom 的计算机

让我这样说吧。如果你想让机器人学会走路,你会怎么做?你建造一个,对它进行编程,然后在纽约街头发布它?当然不是。你建立一个模拟,一个游戏,然后使用虚拟空间教它如何在其中移动。零成本,零风险。这就是游戏在研究领域如此有用的原因。但你如何教它走路呢?答案是今天文章的主题,可能是当时机器学习中最令人兴奋的领域。

你可能知道机器学习有两种类型。监督和无监督。好吧,还有第三个,称为强化学习。强化学习可以说是机器学习中最难理解的领域,因为有很多事情同时发生。我会尽量简化,因为这是一个非常令人惊讶的领域,你绝对应该了解它。但我要警告你。它涉及复杂的思维和 100% 的专注才能掌握它。还有一些数学。所以,深吸一口气,让我们深入研究:

马尔可夫决策过程

代理 动作 环境 状态 奖励。 马尔可夫属性 马尔可夫决策过程

https://www.mdpi.com/

https://www.mdpi.com/ https://www.mdpi.com/

让我们看一个使用超级马里奥的真实示例。在这种情况下:

    代理当然是心爱的马里奥;状态是当前情况(假设是我们屏幕的框架);动作是:左、右移动和跳跃;环境是每个级别的虚拟世界;奖励是马里奥是活着还是死了。
  • 代理当然是心爱的马里奥
  • 代理当然是心爱的马里奥

  • 状态是当前情况(假设是我们屏幕的框架)
  • 状态是当前情况(假设是我们屏幕的框架)

    R=∑t=0∞γtrt R = ∑t=0∞ t=0 t = 0 γt γ t rt r