强化学习简介和解决多臂老虎机问题
剖析 Richard S. Sutton 的“强化学习”与自定义 Python 实现,第一集继续阅读 Towards Data Science »
来源:走向数据科学强化学习简介和多臂老虎机问题求解
强化学习简介和多臂老虎机问题求解
剖析 Richard S. Sutton 的“强化学习”和自定义 Python 实现,第一集
强化学习 (RL) 是机器学习的一个迷人子领域。您可能已经从围棋 [1]、自动驾驶 [2] 等应用中了解了它。
强化学习在我看来,Sutton 和 Barto 的著名著作“强化学习” [3] 也同样引人入胜。我认为这是对该主题的一个很好的介绍,同时也深入探讨并介绍了该领域所有重要的理论主题。不过,阅读起来可能很费劲,尤其是第一次阅读时可能会觉得有点数学化。
因此,我决定开始一个系列文章,逐章总结这本书。我相信用不同的词语解释内容将极大地帮助理解。我还将用 Python 实现书中所有(大多数)算法,并将它们应用于通过(以前的)OpenAI 的 gymnasium 框架 [4] 建模的问题和环境。据我所知,这两点到目前为止都是新颖的,使这个系列独一无二。
这篇文章是该系列的第一篇,将简要介绍 RL 的一般情况,然后快速概述 Sutton 的书的结构——以及如何……