详细内容或原文请订阅后点击阅览
时间差异学习和探索的重要性:插图指南
在动态网格世界上比较无模型和基于模型的RL方法,时间差异学习和探索的重要性:插图指南首先出现在数据科学方面。
来源:走向数据科学事实上,强化学习为各种顺序决策问题提供了有用的解决方案。 时差学习(TD 学习)方法是 RL 算法的一个流行子集。 TD 学习方法结合了蒙特卡罗和动态规划方法的关键方面,可以加速学习,而不需要完美的环境动态模型。
时间差异学习 合并 蒙特卡罗 动态规划在本文中,我们将比较自定义网格世界中不同类型的 TD 算法。实验的设计将概述持续探索的重要性以及所测试算法的个体特征:Q-learning、Dyna-Q 和 Dyna-Q+。
TD算法 不断探索 个人特征 Q-学习 Dyna-Q, Dyna-Q这篇文章的大纲包含:
- 环境描述Temporal-Difference (TD) Learning无模型 TD 方法(Q-learning)和基于模型的 TD 方法(Dyna-Q 和 Dyna-Q+)参数性能比较结论
允许重现结果和图的完整代码可在此处找到:https://github.com/RPegoud/Temporal-Difference-learning
允许重现结果和绘图的完整代码可在此处找到: https://github.com/RPegoud/Temporal-Difference-learning环境
我们在本实验中使用的环境是一个网格世界,具有以下功能:
