重新审视表格增强学习方法的基准测试

引入模块化框架和改进模型性能。对表格增强学习方法的基准重新测试首先出现在数据科学上。

来源:走向数据科学

发表我以前的帖子,上面有关表格增强学习(RL)方法的文章,我无法震惊某些事情不太正确的感觉。结果看上去了,我对他们的结果并不完全满意。

上一篇文章

仍然,我继续进行帖子系列,将重点转移到多玩家游戏和近似解决方案方法。为了支持这一点,我一直在稳步重构我们构建的原始框架。新版本更清洁,更通用且易于使用。在此过程中,它还帮助发现了一些早期算法中的一些错误和边缘问题(稍后会详细介绍)。

在这篇文章中,我将介绍更新的框架,突出我犯的错误,共享校正结果并反思所学的关键课程,为更复杂的实验奠定了基础。

可以在GitHub上找到更新的代码。

github

框架

与以前版本的代码相比,最大的更改是现在将RL解决方案方法作为类实现。这些类公开常见方法(例如ACT()(用于选择操作)和Update()(用于调整模型参数)。

act() update()

补充这一点,一个统一的培训脚本管理与环境的互动:它生成情节并将其馈送到适当的学习方法中 - 使用这些类方法提供的共享界面。

统一培训脚本

这种重构大大简化并标准化了训练过程。以前,每种方法都有自己的独立培训逻辑。现在,培训是集中的,每种方法的角色都是明确定义和模块化的。

在详细介绍方法课程之前,让我们首先查看单人环境的培训循环:

让我们可视化完整的情节的外观 - 在此过程中调用update()和finalize()和finalize()方法时:

finalize()
作者的图像

为您提供一个具体的例子,让我们快速了解这是如何用于Q学习的。

Q学习
图像来自[1]
t 1 2