无需法学硕士法官即可发现幻觉的几何方法 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

无需法学硕士法官即可发现幻觉的几何方法

2026年1月17日 13:00 33 Comments

想象一群鸟在飞行。没有领导者。没有中央指挥。每只鸟都与邻居保持一致——匹配方向、调整速度、通过纯粹的局部协调保持连贯性。其结果是从局部一致性中形成全球秩序。现在想象一只鸟带着与其他鸟相同的信念飞翔。它的翅膀拍打充满信心。它的速度[…]帖子《无需法学硕士法官即可发现幻觉的几何方法》首先出现在《走向数据科学》上。

来源:走向数据科学

飞行中的鸟儿。

没有领导者。没有中央指挥。每只鸟都与邻居保持一致——匹配方向、调整速度、通过纯粹的局部协调保持连贯性。其结果是从局部一致性中形成全球秩序。

现在想象一只鸟带着与其他鸟相同的信念飞翔。它的翅膀拍打充满信心。它的速度是正确的。但它的方向与它的邻居不匹配。这是红色的鸟。

它没有丢失。这并不犹豫。它根本不属于羊群。

法学硕士的幻觉是红色的鸟。

我们实际想要解决的问题

法学硕士生成流畅、自信的文本，其中可能包含捏造的信息。他们发明了不存在的法律案例。他们引用了从未写过的论文。他们以相同的语气陈述事实，无论这些事实是真实的还是完全捏造的。

检测这一点的标准方法是要求另一种语言模型检查输出。法学硕士作为法官。你可以立即看到问题：我们正在使用一个幻觉系统来检测幻觉。这就像要求无法区分颜色的人对油漆样本进行分类一样。他们会给你答案。有时甚至可能是对的。但他们实际上并没有看到你需要他们看到的东西。

我们提出的问题有所不同：我们能否从文本本身的几何结构中检测出幻觉，而不需要其他语言模型的意见？

嵌入实际上做了什么

在讨论检测方法之前，我想先退后一步，确定我们正在研究的内容。

当您将文本输入句子编码器时，您会得到一个向量——高维空间中的一个点。语义相似的文本彼此接近。不相关的文本相距甚远。这就是对比训练的优化目的。但除了“相似的事物很接近”之外，还有一种更微妙的结构。

位移一致性 (DC)

我们将其形式化为位移一致性 (DC)。这个想法很简单：

要点：域位置

红鸟不会

飞行中 DC 本身的相同的调整速度实际上幻觉相关的语言真实的文本输入问题捏造检测一致性红色的不存在提出的局部确定相似的训练的接近法学硕士检测方法编码器领导者正确的模型的连贯性研究的标准方法没有不相关的不匹配