关于直接偏好优化引起的隐式奖励模型的有限泛化能力

从人类反馈中进行强化学习 (RLHF) 是一种将语言模型与人类偏好保持一致的有效方法。RLHF 的核心是学习用于对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是 1) 训练显式奖励模型(如 RLHF)和 2) 使用通过直接偏好优化 (DPO) 等方法从偏好数据中学习的隐式奖励。先前的研究表明,DPO 的隐性奖励模型可以近似训练有素的奖励模型,但尚不清楚 DPO 在多大程度上可以推广到分布……

来源:Apple机器学习研究

从人类反馈中学习(RLHF)是将语言模型与人类偏好保持一致的有效方法。 RLHF的核心是学习得分人类偏好的奖励功能。学习奖励模型的两种主要方法是1)训练一个明确的奖励模型,例如RLHF中的奖励模型,以及2)使用通过直接偏好优化(DPO)等方法从偏好数据中学到的隐式奖励。先前的工作表明,DPO的隐式奖励模型可以近似训练有素的奖励模型,但是目前尚不清楚DPO在多大程度上可以推广到分配变化,这是由于有限的偏好数据或从训练有素的模型中更改语言而发生的问题。我们通过比较使用DPO和RLHF奖励来区分首选和拒绝答案的准确性来解决这个问题。我们的发现表明,DPO的隐式奖励与分布数据的RLHF奖励相似,但表现严重不足RLHF奖励模型。在五个室外设置中,DPO的准确性平均下降为3%,最大降低7%,强调了DPO的隐性奖励模型的优先优化模型的缺点。这些发现凸显了DPO的隐式奖励模型具有有限的概括能力,并证实了在迭代DPO方法中的显式奖励模型的整合。