通过可扩展的训练中期强化学习将推理作为动作抽象来学习

大型语言模型在强化学习 (RL) 方面表现出色,但完全释放这种潜力需要中期训练阶段。有效的中期训练阶段应该确定一组紧凑的有用动作,并通过在线强化学习在其中进行快速选择。我们通过提出关于训练中期如何塑造训练后的第一个理论结果来形式化这种直觉:它描述了一个动作子空间,该子空间可以最小化剪枝的值近似误差和后续规划期间的 RL 误差。我们的分析揭示了训练中期效果的两个关键决定因素:...

来源:Apple机器学习研究

大型语言模型在强化学习 (RL) 方面表现出色,但完全释放这种潜力需要中期训练阶段。有效的中期训练阶段应该确定一组紧凑的有用动作,并通过在线强化学习在其中进行快速选择。我们通过提出关于训练中期如何塑造训练后的第一个理论结果来形式化这种直觉:它描述了一个动作子空间,该子空间可以最小化剪枝的值近似误差和后续规划期间的 RL 误差。我们的分析揭示了训练中期有效性的两个关键决定因素:剪枝效率(它决定了初始强化学习策略的先验)及其对强化学习收敛的影响(决定了通过在线交互改进该策略的程度)。这些结果表明,当决策空间紧凑且有效范围较短时,中期训练最为有效,这凸显了在动作抽象空间而不是原始动作空间中进行操作的重要性。基于这些见解,我们提出推理作为动作抽象(RA3),这是一种可扩展的中期训练算法。具体来说,我们推导了一个顺序变分下界,并通过 RL 迭代发现时间一致的潜在结构来优化它,然后对引导数据进行微调。代码生成任务的实验证明了我们方法的有效性。在多个基本模型中,RA3 将 HumanEval 和 MBPP 的平均性能比基本模型和下一个令牌预测基线提高了 8 点和 4 点。此外,RA3 在 HumanEval+、MBPP+、LiveCodeBench 和 Codeforces 上的 RLVR 中实现了更快的收敛和更高的渐近性能。

  • † 西北大学
  • ‡ 伊利诺伊大学厄巴纳-香槟分校 (UIUC)
  • ** 在 Apple 期间完成的工作