详细内容或原文请订阅后点击阅览
强化学习近似解法介绍
了解函数逼近和逼近函数的不同选择强化学习的近似解决方法介绍一文首先出现在《走向数据科学》上。
来源:走向数据科学关于强化学习(RL)的系列,继 Sutton 和 Barto 的名著《强化学习》之后 [1]。
在之前的文章中,我们已经剖析了该书的第一部分,其中介绍了基本的解决技术,这些技术构成了许多强化学习方法的基础。它们是:动态规划(DP)、蒙特卡罗方法(MC)和时间差分学习(TD)。萨顿的书的第一部分和第二部分的区别在于对问题规模的限制:虽然在第一部分中介绍了表格解决方法,但我们现在敢于更深入地研究这个令人着迷的主题,并包括函数逼近。
为了具体说明,在第一部分中,我们假设所研究问题的状态空间足够小。我们可以通过一个简单的表格来表示它以及找到的解决方案(想象一个表格,表示每个状态的某种“优点”——一个值)。现在,在第二部分中,我们放弃了这个假设,因此能够解决任意问题。
这种修改后的设置是非常需要的,因为我们可以亲眼观察到:在上一篇文章中,我们设法学会了玩井字游戏,但在四子棋中已经失败了 - 因为这里的状态数量约为 10²⁰。或者,考虑一个基于相机图像学习任务的强化学习问题:可能的相机图像数量大于已知宇宙中的原子数量 [1]。
这些数字应该让每个人相信近似求解方法是绝对必要的。除了能够解决此类问题之外,它们还提供泛化:对于表格方法,两个接近但仍然不同的状态被完全分开处理 - 而对于近似解方法,我们希望我们的函数近似能够检测到这种接近的状态并进行泛化。
就这样,我们开始吧。在接下来的几段中,我们将:
