清单比对齐语言模型的奖励模型更好

语言模型必须进行调整以了解和遵循用户说明。强化学习被广泛用于促进这一点 - 通常使用诸如“帮助”和“有害性”之类的固定标准。在我们的工作中,我们建议使用灵活的,特定于指导的标准作为扩大强化学习在引起跟随教学方面产生的影响的手段。我们建议“从清单反馈中学习”(RLCF)。从说明中,我们提取清单并评估响应对每个项目的满足程度 - 使用AI法官和专业人士…

来源:Apple机器学习研究

语言模型必须进行调整以了解和遵循用户说明。强化学习被广泛用于促进这一点 - 通常使用诸如“帮助”和“有害性”之类的固定标准。在我们的工作中,我们建议使用灵活的,特定于指导的标准作为扩大强化学习在引起跟随教学方面产生的影响的手段。我们建议“从清单反馈中学习”(RLCF)。从说明中,我们提取清单并评估响应对每个项目的满足程度 - 使用AI法官和专门的验证程序程序 - 然后将这些分数组合在一起以计算RL的奖励。我们将RLCF与五个广泛研究基准的模型(QWEN2.5-7B构造)应用于强大指导的其他对齐方法进行了比较 - RLCF是提高每个基准测试效果的唯一方法,包括在遵循Bnech上获得4分的增强率,包括遵循Bneckench的硬满意度,在Infobench上增加了Infobench和3杆的增长和3分的增长,并增加了3分的增长。这些结果建立了清单反馈,作为改善语言模型对表达大量需求的查询的支持的关键工具。

    †Carnegie Mellon University‡Meta **在苹果公司完成的工作
  • †卡内基·梅隆大学
  • ‡meta
  • **在Apple