详细内容或原文请订阅后点击阅览
通过易处理的轨迹控制学习结构化推理
大型语言模型可以表现出紧急推理行为,通常表现为重复出现的词汇模式(例如,“等待”,表示验证)。然而,在无约束采样中,复杂的推理轨迹仍然稀疏,并且标准强化学习通常无法保证获取多样化的推理行为。我们提出通过结构化推理来系统地发现和强化不同的推理模式,这种范式需要在强化学习过程中有针对性地探索特定的推理模式。为此,我们提出了 Ctrl-R,一个学习框架......
来源:Apple机器学习研究大型语言模型可以表现出紧急推理行为,通常表现为重复出现的词汇模式(例如,“等待”,表示验证)。然而,在无约束采样中,复杂的推理轨迹仍然稀疏,并且标准强化学习通常无法保证获取多样化的推理行为。我们提出通过结构化推理来系统地发现和强化不同的推理模式,这种范式需要在强化学习过程中有针对性地探索特定的推理模式。为此,我们提出了 Ctrl-R,这是一个通过易于处理的轨迹控制来学习结构化推理的框架,该框架主动指导推出过程,激励对复杂问题解决至关重要的各种推理模式的探索。由此产生的行为策略可以实现准确的重要性采样估计,支持无偏的策略优化。我们进一步在重要性采样权重上引入功率缩放因子,允许策略有选择地从探索性的、分布外的轨迹中学习,同时保持稳定的优化。实验表明,Ctrl-R 可以有效地探索和内化以前无法实现的推理模式,从而在数学推理任务的语言和视觉语言模型上产生一致的改进。
