通过加强学习的大语模型的交错推理

长期思考链(COT)显着增强了大型语言模型(LLM)的推理能力。但是,广泛的推理痕迹导致效率低下和增加时间(TTFT)的增加。我们提出了一种新颖的培训范式,该训练范式使用加固学习(RL)指导推理LLMS以交织和回答多跳的问题。我们观察到,模型本质上具有执行交织的推理的能力,可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励,以激励正确的中间步骤……

来源:Apple机器学习研究

长期思考链(COT)显着增强了大型语言模型(LLM)的推理能力。但是,广泛的推理痕迹导致效率低下和增加时间(TTFT)的增加。我们提出了一种新颖的培训范式,该训练范式使用加固学习(RL)指导推理LLMS以交织和回答多跳的问题。我们观察到,模型本质上具有执行交织的推理的能力,可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励,以激励正确的中间步骤,该步骤通过利用在交错推理期间产生的中间信号来指导政策模型来正确推理路径。在五个不同的数据集和三种RL算法(PPO,GRPO和增强++)上进行的广泛实验表明,在不需要外部工具的情况下,对传统的思想解答推理进行了一致的改进。具体而言,我们的方法平均将TTFT降低了80%以上,并在PASS@1准确度中提高了19.3%。此外,我们的方法仅根据问题答案和逻辑推理数据集进行了培训,具有强大的概括能力,可以复杂推理数据集,例如数学,GPQA和MMLU。此外,我们进行了深入的分析,以揭示对条件奖励建模的一些有价值的见解。

    †杜克大学‡在Apple
  • †杜克大学
  • •在Apple