详细内容或原文请订阅后点击阅览
重新审视表格增强学习方法的基准测试
引入模块化框架和改进模型性能。对表格增强学习方法的基准重新测试首先出现在数据科学上。
来源:走向数据科学发表我以前的帖子,上面有关表格增强学习(RL)方法的文章,我无法震惊某些事情不太正确的感觉。结果看上去了,我对他们的结果并不完全满意。
上一篇文章仍然,我继续进行帖子系列,将重点转移到多玩家游戏和近似解决方案方法。为了支持这一点,我一直在稳步重构我们构建的原始框架。新版本更清洁,更通用且易于使用。在此过程中,它还帮助发现了一些早期算法中的一些错误和边缘问题(稍后会详细介绍)。
在这篇文章中,我将介绍更新的框架,突出我犯的错误,共享校正结果并反思所学的关键课程,为更复杂的实验奠定了基础。
可以在GitHub上找到更新的代码。
github框架
与以前版本的代码相比,最大的更改是现在将RL解决方案方法作为类实现。这些类公开常见方法(例如ACT()(用于选择操作)和Update()(用于调整模型参数)。
类act()
update()
补充这一点,一个统一的培训脚本管理与环境的互动:它生成情节并将其馈送到适当的学习方法中 - 使用这些类方法提供的共享界面。
统一培训脚本这种重构大大简化并标准化了训练过程。以前,每种方法都有自己的独立培训逻辑。现在,培训是集中的,每种方法的角色都是明确定义和模块化的。
在详细介绍方法课程之前,让我们首先查看单人环境的培训循环:
让我们可视化完整的情节的外观 - 在此过程中调用update()和finalize()和finalize()方法时:
finalize()
为您提供一个具体的例子,让我们快速了解这是如何用于Q学习的。
Q学习