带有人工反馈的强化学习指南

为什么重要:带人类反馈的强化学习 (RLHF) 为训练机器解决奖励函数难以定义的复杂任务提供了新途径。

来源:人工智能+

简介

简介

带人类反馈的强化学习 (RLHF) 为训练机器解决奖励函数难以定义的复杂任务提供了新途径。在这里,模型通过人类指导而不是直接观察奖励数据来学习最佳策略(策略本质上是代理的“大脑”)。RLHF 具有广泛的适用性,可用于大型语言模型、机器人技术、自动驾驶、临床试验等。

大脑

通过从人类反馈 (RLHF) 中进行强化学习,可以教导 GPT 模型更准确、更真实,并且更不容易产生“幻觉”。人类可以引导模型更清楚地了解其“知识状态”,在必要时表达不确定性,并避免猜测反应。

幻觉
屏幕截图 – ChatGPT
屏幕截图 – ChatGPT

在本综合指南中,我们深入探讨了强化学习与人类反馈 (RLHF) 的基本原理、方法、挑战和应用。您还将了解一个成功的案例研究,OpenAI 的 ChatGPT 及其对 RLHF 的实现。

强化学习 (RL) 和人类反馈 (HF)

强化学习 (RL) 和人类反馈 (HF) 强化学习 (RL) 和人类反馈 (HF)

强化学习,问题通常被建模为马尔可夫决策过程 (MDP),由元组 (S、A、T、R) 指定,定义可能的世界状态集、代理可用的操作、转换函数和奖励函数。 RL 算法的作用是确定一种策略,该策略可最大化来自环境的预期奖励。

马尔可夫决策过程 (MDP) 马尔可夫决策过程 (MDP) (S, A, T, R)

RL 代理的基本目标是学习最优策略 π* : S → A,它是从状态到动作的映射。最优策略告诉代理在每个状态下采取什么动作,以便在许多步骤的过程中最大化预期累积奖励。

π* : S → A t, s_t a_t r_t s_{t+1} V(s) π Q(s, a) s a, π
公式
公式
公式
公式
γ