从相等的重量到智能重量:OTPO的方法更好的LLM对齐

使用最佳运输来加重在LLM生成的响应中,最重要的是从相等的权重到智能权重:OTPO更好的LLM对准方法首先出现在数据科学方面。

来源:走向数据科学

上下文

已经从基本搜索工具演变为编码,写作和研究的AI助手。现在,通过互联网API可以通过智能手机应用程序访问它们,将强大的AI触手可及。这些系统正在成为我们日常生活中不可或缺的一部分。人们正在使用AI助手来寻求有关人际关系的建议,事实核对以形成意见(尽管显然可以犯错),饮食计划和下一个假期目的地。

随着越来越强大的模型启动,就会出现信任和模型的问题,以确保其产生的回答值得信赖并与人类价值观保持一致。这些不是新问题。传统上,在启动公众使用之前,对人类偏好数据(通常包含输入,选择的答案,拒绝答案)进行了微调。模型一致性和安全性一直是研究的主要领域,并且已经开发了多种算法来训练模型进行对齐。在所有对齐训练算法中,最受欢迎的是直接偏好优化(DPO),因为它的简单性和效率。

,但DPO具有基本限制。当计算响应的可能性时,它对响应中存在的每个单词或代币都使用相等的权重,尽管人类自然对有意义的单词具有更重要的或更重要的重量或权重。例如,让我们看一下与LLM的以下用户互动。

用户:法国的首都是什么?LLM:法国的首都是巴黎,这是一个美丽的城市,拥有许多景点。
用户: llm:

在这种互动中,人类主要关心“巴黎”的准确性,而不是风格的蓬勃发展,但是标准DPO给每个令牌提供了相同的权重,从而允许较少相关的内容稀释学习信号。

o t p OTPO

为什么平等的令牌加权失败

DPO纸的图像
DPO纸

π∗(y | x)分解为令牌级计算。对于使用令牌[t₁,t₂,...,tₙ]选择的响应,日志概率变为:

[t₁,t₂,...,tₙ]