时间差异学习和探索的重要性:插图指南

在动态网格世界上比较无模型和基于模型的RL方法,时间差异学习和探索的重要性:插图指南首先出现在数据科学方面。

来源:走向数据科学

事实上,强化学习为各种顺序决策问题提供了有用的解决方案。 时差学习(TD 学习)方法是 RL 算法的一个流行子集。 TD 学习方法结合了蒙特卡罗和动态规划方法的关键方面,可以加速学习,而不需要完美的环境动态模型。

时间差异学习 合并 蒙特卡罗 动态规划

在本文中,我们将比较自定义网格世界中不同类型的 TD 算法。实验的设计将概述持续探索的重要性以及所测试算法的个体特征:Q-learning、Dyna-Q 和 Dyna-Q+。

TD算法 不断探索 个人特征 Q-学习 Dyna-Q, Dyna-Q

这篇文章的大纲包含:

    环境描述Temporal-Difference (TD) Learning无模型 TD 方法(Q-learning)和基于模型的 TD 方法(Dyna-Q 和 Dyna-Q+)参数性能比较结论
  • 环境描述
  • 时间差分 (TD) 学习
  • 无模型 TD 方法(Q-learning)和基于模型的 TD 方法(Dyna-Q 和 Dyna-Q+)
  • 参数
  • 性能比较
  • 结论
  • 允许重现结果和图的完整代码可在此处找到:https://github.com/RPegoud/Temporal-Difference-learning

    允许重现结果和绘图的完整代码可在此处找到: https://github.com/RPegoud/Temporal-Difference-learning

    环境

    我们在本实验中使用的环境是一个网格世界,具有以下功能:

  • 网格为 12 x 8 个单元格。
  • 代理从网格的左下角开始,目标是到达右上角的宝藏(奖励为 1 的最终状态)。
  • 代理 目标
  • 蓝色传送门已连接,穿过单元格 (10, 6) 上的传送门可到达单元格 (11, 0)。代理在第一次转换后无法再次使用门户。
  • 蓝色门户 (10, 6) 通向 (11, 0) 紫色传送门 17 V