Goldilocks关键词检索结果

Goldilocks RL:调整任务难度以逃避推理奖励稀疏

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

强化学习已成为解锁大型语言模型推理能力的强大范例。然而,依赖稀疏的奖励使得这个过程的样本效率非常低,因为模型必须以最少的反馈来导航巨大的搜索空间。虽然经典课程学习的目的是通过根据复杂性对数据进行排序来缓解这种情况,但特定模型的正确排序通常是不清楚的。为了解决这个问题,我们提出了 Goldilocks,这是一种新颖的教师驱动的数据采样策略,旨在预测学生模型的每个问题的难度。教师模型...