强化学习简介和解决多臂老虎机问题 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

强化学习简介和解决多臂老虎机问题

2024年7月30日 13:50 33 Comments

剖析 Richard S. Sutton 的“强化学习”与自定义 Python 实现，第一集继续阅读 Towards Data Science »

来源:走向数据科学

强化学习简介和多臂老虎机问题求解

强化学习 (RL) 是机器学习的一个迷人子领域。您可能已经从围棋 [1]、自动驾驶 [2] 等应用中了解了它。

强化学习

在我看来，Sutton 和 Barto 的著名著作“强化学习” [3] 也同样引人入胜。我认为这是对该主题的一个很好的介绍，同时也深入探讨并介绍了该领域所有重要的理论主题。不过，阅读起来可能很费劲，尤其是第一次阅读时可能会觉得有点数学化。

Unsplash 上的 Carl Raw 的图片

Carl Raw Unsplash

因此，我决定开始一个系列文章，逐章总结这本书。我相信用不同的词语解释内容将极大地帮助理解。我还将用 Python 实现书中所有（大多数）算法，并将它们应用于通过（以前的）OpenAI 的 gymnasium 框架 [4] 建模的问题和环境。据我所知，这两点到目前为止都是新颖的，使这个系列独一无二。

这篇文章是该系列的第一篇，将简要介绍 RL 的一般情况，然后快速概述 Sutton 的书的结构——以及如何……

领域阅读 Sutton Python 内容强化文章 RL 多臂问题 Raw 老虎机可能 Carl 学习求解 Unsplash