TTFT领域信息情报检索---XiaoMi-AI

2025年5月28日 00:00

通过加强学习的大语模型的交错推理

Interleaved Reasoning for Large Language Models via Reinforcement Learning

长期思考链（COT）显着增强了大型语言模型（LLM）的推理能力。但是，广泛的推理痕迹导致效率低下和增加时间（TTFT）的增加。我们提出了一种新颖的培训范式，该训练范式使用加固学习（RL）指导推理LLMS以交织和回答多跳的问题。我们观察到，模型本质上具有执行交织的推理的能力，可以通过RL进一步增强。我们引入了一个简单而有效的基于规则的奖励，以激励正确的中间步骤……

TTFT关键词检索结果

通过加强学习的大语模型的交错推理