法学硕士的幻觉不是数据中的错误

这是架构的一个特点法学硕士后的幻觉不是数据中的错误首先出现在《走向数据科学》上。

来源:走向数据科学

不是数据质量问题。这不是训练问题。这不是一个可以通过更多 RLHF、更好的过滤或更大的上下文窗口来解决的问题。这是这些系统优化的结构属性。

我已经担任这个职位几个月了,反应是可以预见的:致力于检索增强、微调管道和对齐技术的研究人员会更喜欢更乐观的框架。我明白为什么。

这个论证中缺少的是几何学。对目标和架构的直觉是必要的,但还不够。我们需要打开模型,看看当系统产生自信的错误答案时,内部实际发生了什么。不是在逻辑上。不是注意模式。在表示本身的内部轨迹上,从输入到输出逐层进行。这就是我在这里介绍的工作所做的。

残差流在模型说谎之前知道什么

设置非常简单。我们采用事实提示(变压器应检索存储的关联的类型),并在两种条件下运行它:一种是模型产生正确的答案,另一种是模型产生自信的错误答案(幻觉)。然后,我们通过网络逐层跟踪残差流(内部表示向量)的轨迹。问题是:这两条轨迹是否因为模型缺乏相关关联而出现分歧?还是有更具体的事情发生?

要理解这意味着什么,请将模型每一层的内部状态视为空间中的一个点 - 一个高维空间。当模型处理提示时,该点就会移动。它追踪一条路径。实验测量的是正确答案期间所采取的路径和幻觉期间所采取的路径是否因为一条路径较短(模型耗尽信息)而出现分歧,或者因为它们在覆盖相同距离时走向不同的方向。

三种制度

检测幻觉