详细内容或原文请订阅后点击阅览
Goldilocks RL:调整任务难度以逃避推理奖励稀疏
强化学习已成为解锁大型语言模型推理能力的强大范例。然而,依赖稀疏的奖励使得这个过程的样本效率非常低,因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况,但特定模型的正确排序通常是不清楚的。为了解决这个问题,我们提出了 Goldilocks,这是一种新颖的教师驱动的数据采样策略,旨在预测学生模型的每个问题的难度。教师模型...
来源:Apple机器学习研究强化学习已成为解锁大型语言模型推理能力的强大范例。然而,依赖稀疏的奖励使得这个过程的样本效率非常低,因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况,但特定模型的正确排序通常是不清楚的。为了解决这个问题,我们提出了 Goldilocks,这是一种新颖的教师驱动的数据采样策略,旨在预测学生模型的每个问题的难度。教师模型为学生模型选择适当难度的问题,即既不太容易也不太难的问题(金发姑娘原则),同时用 GRPO 训练学生。通过利用学生在所见样本上的表现,教师不断适应学生不断发展的能力。在 OpenMathReasoning 数据集上,Goldilocks 数据采样提高了在相同计算预算下使用标准 GRPO 训练的模型的性能。
