代理指针 RAG:消除知识图中浪费的实体和关系提取

企业 GraphRAG 系统的结构引导 NER 优化《代理指针 RAG:消除知识图中浪费的实体和关系提取》一文首先出现在《走向数据科学》上。

来源:走向数据科学

在我关于解决知识图中的实体和关系蔓延的文章中,我讨论了代理指针架构如何优化对正确实体和关系的搜索。然而,这只是图摄取中更大问题的第二部分。更大且成本更高的步骤是首先识别这些实体 (NER) 和关系。

知识图旨在回答类似文档(供应商合同、合规手册、信贷协议、全球条款和条件等)上实体和关系之间的复杂聚合和多跳查询。这些文档通常长度超过 100 页,密集文本超过 50 万字符。企业经常从同一供应商和客户处获取数千份类似合同。

为此,每个文档都通过强大的 LLM 进行 NER 和关系提取,甚至在实际的图形摄取发生之前就燃烧了数百万个代币。有时必须重复该过程,因为长上下文提取通常会遇到召回一致性降低和提取方差增加的问题。

然而,关键的事实是合同等法律文件在不同组织甚至不同行业之间具有非常相似的结构。它们充满了密集的样板文本、时间表、展览等,其中大部分对 NER 来说没有什么价值,但无论如何仍然必须由法学硕士看到。

但是如果我们可以利用这种结构可预测性呢?如果我们可以在将某个部分发送给法学硕士之前预测它的价值,通过策略性地忽略噪音来大幅降低摄取成本,会怎么样?

快速回顾:什么是代理指针?

现有的 NER 优化方法

在讨论代理指针方法之前,让我们先看看组织采用的一些现有优化方法。

代理指针方法

如前所述,Proxy-Pointer 利用知识图谱的以下属性:

让我们通过实验来看看它的实际效果。