基准标准表格增强学习算法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

基准标准表格增强学习算法

2025年5月6日 07:22 33 Comments

比较了萨顿（Sutton）关于Gridworld环境的第一部分中的所有方法，首先出现在数据科学的基准测试后标准的表格增强学习算法。

来源:走向数据科学

帖子，我们探索了Sutton和Barto [1]（*）的开创性图书增强学习的第一部分。在该部分中，我们研究了几乎所有现代强化学习（RL）算法的三种基本技术：动态编程（DP），蒙特卡洛方法（MC）和时间差异学习（TD）。我们不仅深入讨论了每个字段的算法，而且还在Python中实现了每个字段。

增强学习 python

本书的第一部分重点介绍了表格解决方案方法 - 适用于足够小的问题的方法，以表格形式表示。例如，使用Q学习，我们可以计算和存储一个完整的Q-table，其中包含所有可能的状态行动对。相比之下，萨顿书的第二部分解决了近似解决方案方法。当状态和行动空间变得太大（甚至无限）时，我们必须概括。考虑玩Atari游戏的挑战：状态空间太大了，无法详尽的模型。取而代之的是，深层神经网络用于将状态压缩到潜在向量中，然后作为近似值函数的基础[2]。

虽然我们将在即将发表的帖子中进入第二部分，但我很高兴宣布一个新系列：我们将基准在第一部分中介绍的所有算法相互反对。这篇文章既是我们基准测试框架的摘要又是介绍。我们将根据其有效地解决越来越大的网格世界环境来评估每种算法。在以后的帖子中，我们计划将实验扩展到更具挑战性的场景，例如两人游戏，在这些场景中，这些方法之间的差异将更加明显。

总结，在这篇文章中，我们将：

介绍基准任务并讨论我们的比较标准。

提供了萨顿书中介绍的方法以及最初的基准结果的逐章摘要。

介绍基准任务和实验计划

作者的图像 github W

TD-N

测试框架神经网络实验计划学习的函数的篇文章近似解表格详尽的值函数状态完整的算法解决方案例如动态最初的部分介绍根据萨顿比较标准近似值方法帖子结果的学习基准可能的