如何训练LLM“思考”(O1&DeepSeek-R1)

高级推理模型解释了帖子如何训练LLM进行“思考”(O1&DeepSeek-R1)首先出现在数据科学方面。

来源:走向数据科学

2024年9月,Openai发布了其O1型号,接受了大规模增强学习培训,从而赋予了“高级推理”功能。不幸的是,他们如何实现这一目标的细节从未公开共享。但是,今天,DeepSeek(AI研究实验室)复制了这种推理行为,并发布了其方法的完整技术细节。在本文中,我将讨论这项创新背后的关键思想,并描述它们如何在引擎盖下工作。

视频

OpenAI的O1型号标志着用于培训大语言模型(LLMS)的新范式。它引入了所谓的“思考”代币,该令牌可以使模型可以用来思考问题和用户查询。

“思考”令牌 模型可以用来思考 通过问题

随着测试时间计算的增加,来自O1的主要见解得到了改善。这只是一种奇特的方式,即模型产生的令牌越多,其响应越好。下图从Openai的博客中复制,很好地捕捉了这一点。

测试时间计算 模型生成的令牌越多,其响应越好
分别使用火车时间和测试时间计算的AIME精度缩放。图从[1]重新启动。

在上面的图中,y轴是AIME(数学问题)上的模型性能,而X轴是各种计算时间。左情节描述了著名的神经缩放法则,该法律开始了2023年的LLM匆忙。换句话说,训练模型的时间越长(即火车时间计算),其性能越好。

更长的模型经过训练(即火车时间计算) 训练有素 更好的性能

右侧,我们看到了一种新型的扩展定律。在这里,模型生成的令牌越多(即测试时间计算),其性能越好。

模型越多的令牌 令牌 (即测试时间计算) 其性能越好

“思考”令牌

在训练后引入的特殊令牌,该代币划定模型的思想链(COT) 一个 和两个 如何 grpo 一个