Goldilocks RL：调整任务难度以逃避推理奖励稀疏 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Goldilocks RL：调整任务难度以逃避推理奖励稀疏

2026年3月18日 00:00 33 Comments

来源:Apple机器学习研究

强化学习已成为解锁大型语言模型推理能力的强大范例。然而，依赖稀疏的奖励使得这个过程的样本效率非常低，因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况，但特定模型的正确排序通常是不清楚的。为了解决这个问题，我们提出了 Goldilocks，这是一种新颖的教师驱动的数据采样策略，旨在预测学生模型的每个问题的难度。教师模型为学生模型选择适当难度的问题，即既不太容易也不太难的问题（金发姑娘原则），同时用 GRPO 训练学生。通过利用学生在所见样本上的表现，教师不断适应学生不断发展的能力。在 OpenMathReasoning 数据集上，Goldilocks 数据采样提高了在相同计算预算下使用标准 GRPO 训练的模型的性能。

† 瑞士洛桑联邦理工学院 (EPFL)

学生最少的提高根据 GRPO 数据搜索空间模型的发展的清楚的瑞士学习的复杂性采样教师数据集样本排序训练的模型不清楚的解锁问题巨大的能力驱动的 Goldilocks

Goldilocks RL：调整任务难度以逃避推理奖励稀疏

其他外部链接

Tags

XiaoMi-AI