RLCF关键词检索结果

清单比对齐语言模型的奖励模型更好

Checklists Are Better Than Reward Models For Aligning Language Models

语言模型必须进行调整以了解和遵循用户说明。强化学习被广泛用于促进这一点 - 通常使用诸如“帮助”和“有害性”之类的固定标准。在我们的工作中,我们建议使用灵活的,特定于指导的标准作为扩大强化学习在引起跟随教学方面产生的影响的手段。我们建议“从清单反馈中学习”(RLCF)。从说明中,我们提取清单并评估响应对每个项目的满足程度 - 使用AI法官和专业人士…