详细内容或原文请订阅后点击阅览
基准标准表格增强学习算法
比较了萨顿(Sutton)关于Gridworld环境的第一部分中的所有方法,首先出现在数据科学的基准测试后标准的表格增强学习算法。
来源:走向数据科学帖子,我们探索了Sutton和Barto [1](*)的开创性图书增强学习的第一部分。在该部分中,我们研究了几乎所有现代强化学习(RL)算法的三种基本技术:动态编程(DP),蒙特卡洛方法(MC)和时间差异学习(TD)。我们不仅深入讨论了每个字段的算法,而且还在Python中实现了每个字段。
增强学习 python本书的第一部分重点介绍了表格解决方案方法 - 适用于足够小的问题的方法,以表格形式表示。例如,使用Q学习,我们可以计算和存储一个完整的Q-table,其中包含所有可能的状态行动对。相比之下,萨顿书的第二部分解决了近似解决方案方法。当状态和行动空间变得太大(甚至无限)时,我们必须概括。考虑玩Atari游戏的挑战:状态空间太大了,无法详尽的模型。取而代之的是,深层神经网络用于将状态压缩到潜在向量中,然后作为近似值函数的基础[2]。
虽然我们将在即将发表的帖子中进入第二部分,但我很高兴宣布一个新系列:我们将基准在第一部分中介绍的所有算法相互反对。这篇文章既是我们基准测试框架的摘要又是介绍。我们将根据其有效地解决越来越大的网格世界环境来评估每种算法。在以后的帖子中,我们计划将实验扩展到更具挑战性的场景,例如两人游戏,在这些场景中,这些方法之间的差异将更加明显。
总结,在这篇文章中,我们将:
目录
介绍基准任务和实验计划
W