强化学习手册:基本问题指南

简化掌握强化学习所需的所有概念《强化学习手册:基础问题指南》一文首先出现在《走向数据科学》上。

来源:走向数据科学

理解强化学习需要了解的基本概念!

我们将从“什么是强化学习”的绝对基础知识进入更高级的主题,包括智能体探索、价值观和政策,并区分流行的训练方法。在此过程中,我们还将了解强化学习中的各种挑战以及研究人员如何应对这些挑战。

从“什么是强化学习”的绝对基础知识进展到更高级的主题,包括 RL 是什么

在文章的最后,我还将分享一个我制作的 YouTube 视频,以视觉上引人入胜的方式解释了本文中的所有概念。如果您不太喜欢阅读,您可以查看该配套视频!

注:除特别说明外,所有图片均由作者制作。

强化学习基础知识

假设您想要训练一个 AI 模型来学习如何穿越障碍路线。强化学习是机器学习的一个分支,我们的模型通过收集经验来学习——采取行动并观察发生的情况。更正式地说,强化学习由两个组件组成:代理和环境。

代理

学习过程涉及两个反复发生的关键活动:探索和训练。在探索过程中,代理通过采取行动并找出发生的情况来收集环境中的经验。然后,在训练活动期间,代理使用这些收集的经验来改进自己。

探索 训练
代理收集环境中的经验,并使用这些经验来训练策略

环境

一旦代理选择了一个操作,环境就会更新。它还根据代理的表现返回奖励。环境设计师对奖励的结构进行编程。

换句话说,当智能体做了好事时,环境会提供积极的强化(例如高积极奖励),而当代理做坏事时,环境会提供惩罚(例如消极奖励)。

正强化 惩罚 γ 1