重新审视表格增强学习方法的基准测试 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

重新审视表格增强学习方法的基准测试

2025年7月1日 16:31 33 Comments

引入模块化框架和改进模型性能。对表格增强学习方法的基准重新测试首先出现在数据科学上。

来源:走向数据科学

发表我以前的帖子，上面有关表格增强学习（RL）方法的文章，我无法震惊某些事情不太正确的感觉。结果看上去了，我对他们的结果并不完全满意。

上一篇文章

仍然，我继续进行帖子系列，将重点转移到多玩家游戏和近似解决方案方法。为了支持这一点，我一直在稳步重构我们构建的原始框架。新版本更清洁，更通用且易于使用。在此过程中，它还帮助发现了一些早期算法中的一些错误和边缘问题（稍后会详细介绍）。

在这篇文章中，我将介绍更新的框架，突出我犯的错误，共享校正结果并反思所学的关键课程，为更复杂的实验奠定了基础。

可以在GitHub上找到更新的代码。

github

与以前版本的代码相比，最大的更改是现在将RL解决方案方法作为类实现。这些类公开常见方法（例如ACT（）（用于选择操作）和Update（）（用于调整模型参数）。

类 act（） update（）

补充这一点，一个统一的培训脚本管理与环境的互动：它生成情节并将其馈送到适当的学习方法中 - 使用这些类方法提供的共享界面。

统一培训脚本

这种重构大大简化并标准化了训练过程。以前，每种方法都有自己的独立培训逻辑。现在，培训是集中的，每种方法的角色都是明确定义和模块化的。

在详细介绍方法课程之前，让我们首先查看单人环境的培训循环：

让我们可视化完整的情节的外观 - 在此过程中调用update（）和finalize（）和finalize（）方法时：

finalize（）

作者的图像

为您提供一个具体的例子，让我们快速了解这是如何用于Q学习的。

Q学习

图像来自[1] _t ₁ ₂

自己的具体的适当的培训学习方法子系列错误 RL 学习的完整的用于集中的可视化正确的 update 近似解 finalize 继续进行复杂的结果方法学习模块化的统一的解决方案环境的更新的标准化共享情节模块化以前的每种不完全框架最大的重构