重新思考 PPO 在 RLHF 中的作用

重新思考 PPO 在 RLHF 中的作用TL;DR:在 RLHF 中,奖励学习阶段(以比较的形式使用人类偏好)与 RL 微调阶段(优化单一的非比较奖励)之间存在矛盾。如果我们以比较的方式执行 RL 会怎么样?图 1:此图说明了绝对反馈和相对反馈的强化学习之间的区别。通过合并新组件 - 成对策略梯度,我们可以统一奖励建模阶段和 RL 阶段,从而实现基于成对响应的直接更新。大型语言模型 (LLM) 为功能越来越强大的虚拟助手提供支持,例如 GPT-4、Claude-2、Bard 和 Bing Chat。这些系统可以响应复杂的用户查询、编写代码,甚至创作诗歌。这些令人惊叹的虚拟助手背后的技术是带人类反馈的强化学习 (RLHF)。 RLHF 旨在使模型与人类价值观保持一致,并消除意外行为,这些行为通常是由于模型在预训练阶段接触大量低质量数据而产生的。据报道,近端策略优化 (PPO) 是此过程中的主要 RL 优化器,表现出不稳定性和实施复杂性。更重要的是,RLHF 过程中存在持续的差异:尽管使用各种响应之间的比较来训练奖励模型,但 RL 微调阶段在不进行任何比较的情况下针对单个响应进行工作

来源:BAIR
重新思考 PPO 在 RLHF 中的作用

TL;DR:在 RLHF 中,奖励学习阶段(使用人类偏好作为比较形式)与 RL 微调阶段(优化单一、非比较奖励)之间存在矛盾。如果我们以比较的方式执行 RL 会怎样?

TL;DR

图 1:此图说明了绝对反馈和相对反馈的强化学习之间的区别。通过合并新组件 - 成对策略梯度,我们可以统一奖励建模阶段和 RL 阶段,从而实现基于成对响应的直接更新。

图 1:此图说明了绝对反馈和相对反馈的强化学习之间的区别。通过合并新组件 - 成对策略梯度,我们可以统一奖励建模阶段和 RL 阶段,从而实现基于成对响应的直接更新。 图 1: 绝对 相对

大型语言模型 (LLM) 为功能越来越强大的虚拟助手提供支持,例如 GPT-4、Claude-2、Bard 和 Bing Chat。这些系统可以响应复杂的用户查询、编写代码,甚至创作诗歌。这些出色的虚拟助手所依赖的技术是带人类反馈的强化学习 (RLHF)。RLHF 旨在使模型与人类价值观保持一致并消除意外行为,这些行为通常是由于模型在预训练阶段接触大量低质量数据而产生的。

GPT-4 Claude-2 Bard Bing Chat RLHF

据报道,此过程中占主导地位的 RL 优化器近端策略优化 (PPO) 表现出不稳定性和实施复杂性。更重要的是,RLHF 过程中存在持续的差异:尽管使用各种响应之间的比较来训练奖励模型,但 RL 微调阶段在不进行任何比较的情况下对单个响应进行操作。这种不一致性可能会加剧问题,尤其是在具有挑战性的语言生成领域。

PPO 不稳定性 P3O

背景

图 2: CB