详细内容或原文请订阅后点击阅览
无需法学硕士法官即可发现幻觉的几何方法
想象一群鸟在飞行。没有领导者。没有中央指挥。每只鸟都与邻居保持一致——匹配方向、调整速度、通过纯粹的局部协调保持连贯性。其结果是从局部一致性中形成全球秩序。现在想象一只鸟带着与其他鸟相同的信念飞翔。它的翅膀拍打充满信心。它的速度[…]帖子《无需法学硕士法官即可发现幻觉的几何方法》首先出现在《走向数据科学》上。
来源:走向数据科学飞行中的鸟儿。
没有领导者。没有中央指挥。每只鸟都与邻居保持一致——匹配方向、调整速度、通过纯粹的局部协调保持连贯性。其结果是从局部一致性中形成全球秩序。
现在想象一只鸟带着与其他鸟相同的信念飞翔。它的翅膀拍打充满信心。它的速度是正确的。但它的方向与它的邻居不匹配。这是红色的鸟。
它没有丢失。这并不犹豫。它根本不属于羊群。
法学硕士的幻觉是红色的鸟。
我们实际想要解决的问题
法学硕士生成流畅、自信的文本,其中可能包含捏造的信息。他们发明了不存在的法律案例。他们引用了从未写过的论文。他们以相同的语气陈述事实,无论这些事实是真实的还是完全捏造的。
检测这一点的标准方法是要求另一种语言模型检查输出。法学硕士作为法官。你可以立即看到问题:我们正在使用一个幻觉系统来检测幻觉。这就像要求无法区分颜色的人对油漆样本进行分类一样。他们会给你答案。有时甚至可能是对的。但他们实际上并没有看到你需要他们看到的东西。
我们提出的问题有所不同:我们能否从文本本身的几何结构中检测出幻觉,而不需要其他语言模型的意见?
嵌入实际上做了什么
在讨论检测方法之前,我想先退后一步,确定我们正在研究的内容。
当您将文本输入句子编码器时,您会得到一个向量——高维空间中的一个点。语义相似的文本彼此接近。不相关的文本相距甚远。这就是对比训练的优化目的。但除了“相似的事物很接近”之外,还有一种更微妙的结构。
位移一致性 (DC)
我们将其形式化为位移一致性 (DC)。这个想法很简单:
