面向以数据为中心的 RLHF:偏好数据集比较的简单指标

将语言模型与人类偏好相一致的目标需要能够揭示这些偏好的数据。理想情况下,可以花费时间和金钱仔细收集和定制针对每个下游应用程序的定制偏好数据。然而,在实践中,少数几个公开可用的偏好数据集通常用于训练奖励模型,以从人类反馈 (RLHF) 进行强化学习。虽然新的偏好数据集正在以越来越高的频率被引入,但目前还没有对它们进行测量和比较的努力。在本文中,我们系统地研究了…

来源:Apple机器学习研究

将语言模型与人类偏好保持一致的目标需要揭示这些偏好的数据。理想情况下,可以花时间和金钱来仔细收集和调整定制偏好数据,以向每个下游应用程序收集和剪裁。但是,实际上,经常使用少数几个公开可用的偏好数据集来培训从人类反馈(RLHF)学习的奖励模型。虽然新的偏好数据集的频率越来越多,但目前尚未努力衡量和比较这些数据集。在本文中,我们通过三个角度系统地研究偏好数据集:比例,标签噪声和信息内容。我们为每个观点提出了特定的指标,并发现了不同的比较轴,以更好地了解偏好数据集。我们的工作是通过提供有助于培训效率和RLHF迭代数据收集的观点来迈向以数据为中心的对齐方式的第一步。