强化学习通过自适应揭示基本原理进行推理

我们提出,来自部分专家演示的强化学习(RL)不仅仅是一种训练启发式方法,而且是解决复杂序列生成任务的一个有前景的框架。监督微调(SFT)依赖于密集的真实标签,随着序列长度的增长,其成本也越来越高。另一方面,强化学习则面临着稀疏奖励和组合大输出空间的问题。我们通过引入自适应回溯(AdaBack)来解决这个问题,这是一种按样本课程学习算法,在训练期间仅显示目标输出的部分前缀。该...

来源:Apple机器学习研究

我们提出,来自部分专家演示的强化学习(RL)不仅仅是一种训练启发式方法,而且是解决复杂序列生成任务的一个有前景的框架。监督微调(SFT)依赖于密集的真实标签,随着序列长度的增长,其成本也越来越高。另一方面,强化学习则面临着稀疏奖励和组合大输出空间的问题。我们通过引入自适应回溯(AdaBack)来解决这个问题,这是一种按样本课程学习算法,在训练期间仅显示目标输出的部分前缀。根据模型过去的奖励信号动态调整每个样本的监督长度,使其能够通过调整正确的部分解决方案来逐步学习完成推理链。我们研究了 SFT 和 RL 之间的这种中间机制,并认为每个样本的课程学习不仅仅是效率和通用性之间的权衡,它可以成功地完成具有长潜在依赖序列的任务,而 SFT 和 RL 都无法泛化。使用具有潜在奇偶约束的综合任务,我们证明了我们针对部分答案的自适应课程可靠地解决了原本棘手的问题。在数学推理基准(MATH、GSM8k)上,我们发现课程学习使模型能够解决仅 RL 无法解决的问题,通过增量接触部分解决方案来获得新的推理能力。

    † 洛桑联邦理工学院 (EPFL)* 平等监督
  • † 洛桑联邦理工学院 (EPFL)
  • * 平等监督