强化从人类反馈中学习,简单地解释了

一种使Chatgpt如此聪明的一种技术从人类的反馈中学习,这首先出现在数据科学上。

来源:走向数据科学

2022年Chatgpt的出现完全改变了世界开始感知人工智能的方式。 Chatgpt的令人难以置信的表现导致了其他强大的LLM的快速发展。

我们可以粗略地说Chatgpt是GPT-3的升级版本。但是,与以前的GPT版本相比,这次OpenAI开发人员不仅使用了更多的数据或复杂的模型体系结构。相反,他们设计了一种令人难以置信的技术,可以突破。

在本文中,我们将讨论RLHF - 在Chatgpt核心实施的一种基本算法,它超过了LLMS人类注释的限制。尽管该算法基于近端策略优化(PPO),但我们将保持简单的解释,而不必介绍强化学习的细节,这不是本文的重点。

NLP开发前chatgpt

为了更好地潜入上下文,让我们提醒自己在Chatgpt之前是如何开发LLM的。在大多数情况下,LLM开发由两个阶段组成:

预训练和微调框架

预训练包括语言建模 - 模型试图在上下文中预测隐藏令牌的任务。然后将模型为隐藏令牌产生的概率分布与地面真相分布进行比较,以进行损失计算和进一步的反向传播。通过这种方式,该模型了解语言的语义结构以及单词背后的含义。

如果您想了解有关预培训和微调框架的更多信息,请查看我的有关Bert的文章。
预训练和微调框架 有关伯特的文章

之后,该模型在下游任务上进行了微调,该任务可能包括不同的目标:文本摘要,文本翻译,文本生成,问题答案等。在许多情况下,微调需要一个标记的数据集,该数据集应允许足够的文本示例允许模型及时及时地进行学习并避免过度拟合。

RLHF

p

推理