时间差异学习和探索的重要性：插图指南 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

时间差异学习和探索的重要性：插图指南

2025年10月2日 04:46 33 Comments

在动态网格世界上比较无模型和基于模型的RL方法，时间差异学习和探索的重要性：插图指南首先出现在数据科学方面。

来源:走向数据科学

事实上，强化学习为各种顺序决策问题提供了有用的解决方案。时差学习（TD 学习）方法是 RL 算法的一个流行子集。 TD 学习方法结合了蒙特卡罗和动态规划方法的关键方面，可以加速学习，而不需要完美的环境动态模型。

时间差异学习 合并 蒙特卡罗 动态规划

在本文中，我们将比较自定义网格世界中不同类型的 TD 算法。实验的设计将概述持续探索的重要性以及所测试算法的个体特征：Q-learning、Dyna-Q 和 Dyna-Q+。

TD算法 不断探索 个人特征 Q-学习 Dyna-Q， Dyna-Q

这篇文章的大纲包含：

环境描述Temporal-Difference (TD) Learning无模型 TD 方法（Q-learning）和基于模型的 TD 方法（Dyna-Q 和 Dyna-Q+）参数性能比较结论

环境描述

时间差分 (TD) 学习

无模型 TD 方法（Q-learning）和基于模型的 TD 方法（Dyna-Q 和 Dyna-Q+）

参数

性能比较

结论

允许重现结果和图的完整代码可在此处找到：https://github.com/RPegoud/Temporal-Difference-learning

允许重现结果和绘图的完整代码可在此处找到： https://github.com/RPegoud/Temporal-Difference-learning

我们在本实验中使用的环境是一个网格世界，具有以下功能：

网格为 12 x 8 个单元格。

代理从网格的左下角开始，目标是到达右上角的宝藏（奖励为 1 的最终状态）。

代理目标

蓝色传送门已连接，穿过单元格 (10, 6) 上的传送门可到达单元格 (11, 0)。代理在第一次转换后无法再次使用门户。

蓝色门户 (10, 6) 通向 (11, 0) 紫色传送门 17 V

learning 环境 Dyna Temporal 代理右上角动态模型特征学习算法模型的使用的网格的动态目标重要性事实上结论性能比较 Difference 同类型的 TD 单元格学习方法时间传送门绘图的探索的实验的网格有用的动态规划