通过易处理的轨迹控制学习结构化推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

通过易处理的轨迹控制学习结构化推理

2026年7月2日 00:00 33 Comments

来源:Apple机器学习研究

大型语言模型可以表现出紧急推理行为，通常表现为重复出现的词汇模式（例如，“等待”，表示验证）。然而，在无约束采样中，复杂的推理轨迹仍然稀疏，并且标准强化学习通常无法保证获取多样化的推理行为。我们提出通过结构化推理来系统地发现和强化不同的推理模式，这种范式需要在强化学习过程中有针对性地探索特定的推理模式。为此，我们提出了 Ctrl-R，这是一个通过易于处理的轨迹控制来学习结构化推理的框架，该框架主动指导推出过程，激励对复杂问题解决至关重要的各种推理模式的探索。由此产生的行为策略可以实现准确的重要性采样估计，支持无偏的策略优化。我们进一步在重要性采样权重上引入功率缩放因子，允许策略有选择地从探索性的、分布外的轨迹中学习，同时保持稳定的优化。实验表明，Ctrl-R 可以有效地探索和内化以前无法实现的推理模式，从而在数学推理任务的语言和视觉语言模型上产生一致的改进。

† 加州大学洛杉矶分校

** 在 Apple 期间完成的工作

针对性框架无法 Ctrl 推理策略准确的复杂问题复杂的重要的采样稳定的模式强化不同的完成的语言多样化实现轨迹控制特定的学习探索结构化一致的学习过程重要性

通过易处理的轨迹控制学习结构化推理

其他外部链接

Tags

XiaoMi-AI