tis-dpo:直接偏好优化的令牌级别的重要性采样

直接偏好优化(DPO)由于其简单性和有效性而被广泛采用大型语言模型(LLMS)的偏好对齐。但是,DPO被推导为匪徒问题,其中整个响应被视为单臂,忽略了令牌之间的重要性差异,这可能会影响优化效率,并且使得难以实现最佳结果。在这项工作中,我们建议DPO的最佳数据在获胜和失去响应方面的每个代币都具有相同的预期奖励,因为令牌重要性没有差异。但是,由于…

来源:Apple机器学习研究

直接偏好优化(DPO)由于其简单性和有效性而被广泛采用大型语言模型(LLMS)的偏好对齐。但是,DPO被推导为匪徒问题,其中整个响应被视为单臂,忽略了令牌之间的重要性差异,这可能会影响优化效率,并且使得难以实现最佳结果。在这项工作中,我们建议DPO的最佳数据在获胜和失去响应方面的每个代币都具有相同的预期奖励,因为令牌重要性没有差异。但是,由于最佳数据集在实践中不可用,因此我们建议使用原始数据集以实现无偏优化的重要性采样。因此,我们提出了一个名为tis-dpo的令牌重要性采样DPO目标,该目标根据其奖励分配给每个令牌的重要性权重。受到以前的作品的启发,我们使用一对对比度LLM的预测概率差异估算了令牌重要性权重。我们探索了构建这些对比的LLM的三种方法:(1)用对比提示指导原始LLM,(2)使用胜利和失去响应训练两个单独的LLM,以及(3)通过获胜和失去响应进行前进和反向DPO培训。实验表明,TIS-DPO明显优于无害性和有益性一致性和摘要任务的各种基线方法。我们还可以看到估计的权重,证明了它们识别关键令牌位置的能力。

†在苹果实习期间完成的工作。

†在苹果实习期间完成的工作。 •Tsinghua大学 §Illinois在芝加哥