基准标准表格增强学习算法

比较了萨顿(Sutton)关于Gridworld环境的第一部分中的所有方法,首先出现在数据科学的基准测试后标准的表格增强学习算法。

来源:走向数据科学

帖子,我们探索了Sutton和Barto [1](*)的开创性图书增强学习的第一部分。在该部分中,我们研究了几乎所有现代强化学习(RL)算法的三种基本技术:动态编程(DP),蒙特卡洛方法(MC)和时间差异学习(TD)。我们不仅深入讨论了每个字段的算法,而且还在Python中实现了每个字段。

增强学习 python

本书的第一部分重点介绍了表格解决方案方法 - 适用于足够小的问题的方法,以表格形式表示。例如,使用Q学习,我们可以计算和存储一个完整的Q-table,其中包含所有可能的状态行动对。相比之下,萨顿书的第二部分解决了近似解决方案方法。当状态和行动空间变得太大(甚至无限)时,我们必须概括。考虑玩Atari游戏的挑战:状态空间太大了,无法详尽的模型。取而代之的是,深层神经网络用于将状态压缩到潜在向量中,然后作为近似值函数的基础[2]。

虽然我们将在即将发表的帖子中进入第二部分,但我很高兴宣布一个新系列:我们将基准在第一部分中介绍的所有算法相互反对。这篇文章既是我们基准测试框架的摘要又是介绍。我们将根据其有效地解决越来越大的网格世界环境来评估每种算法。在以后的帖子中,我们计划将实验扩展到更具挑战性的场景,例如两人游戏,在这些场景中,这些方法之间的差异将更加明显。

总结,在这篇文章中,我们将:

  • 介绍基准任务并讨论我们的比较标准。
  • 提供了萨顿书中介绍的方法以及最初的基准结果的逐章摘要。
  • 目录

    介绍基准任务和实验计划

    作者的图像
    github W

    TD-N