详细内容或原文请订阅后点击阅览
RL中的策略优化:PPO和GRPO
PPO和GRPO的初学者友好指南:简化策略优化,以强化学习后,在RL中脱神秘的策略优化:PPO和GRPO的介绍首先出现在数据科学方面。
来源:走向数据科学简介
Learning(RL)在教授代理方面取得了巨大的成功,以解决复杂的任务,从掌握Atari游戏到培训有用的语言模型。许多进步背后的两种重要技术是策略优化算法,称为近端政策优化(PPO)和较新的广义强化政策优化(GRPO)。在本文中,我们将以初学者友好的术语来解释这些算法是什么,为什么重要以及它们的工作方式。我们将从加强学习和政策梯度方法的快速概述开始,然后介绍GRPO(包括其动机和核心思想),然后更深入地研究PPO的设计,数学和优势。一路上,我们将将PPO(和GRPO)与其他流行的RL算法进行比较,例如DQN,A3C,TRPO和DDPG。最后,我们将查看一些代码,以了解如何在实践中使用PPO。让我们开始吧!
策略优化 近端策略优化(PPO) 广义增强政策优化(GRPO) 策略梯度背景:强化学习和政策梯度
强化学习是一个框架,代理通过试用和错误与环境进行交互。代理商观察环境状态,采取措施,然后收到奖励信号,并可能是新状态作为回报。随着时间的流逝,通过尝试行动和观察奖励,代理会适应其行为,以最大程度地提高其获得的累积奖励。国家循环→行动→奖励→下一个状态是RL的本质,代理商的目标是发现一项良好的政策(一种基于国家选择行动的策略),从而产生高回报。
代理 环境 动作 奖励 状态→行动→奖励→下一个状态 策略 基于策略的 策略梯度 优势 a s Actor-Critic ppo 组相对策略优化 消除了对单独的评论家/价值网络的需求 组 动机: 增强学习 核心想法: 比较多个动作相对于彼此的结果 顶部: 政策模型 底部: