GraphRAG 实际应用:从商业合同到动态问答代理

基于问题的提取方法在这篇博文中,我们介绍了一种利用图形检索增强生成 (GraphRAG) 方法的方法 — 以简化提取商业合同数据和构建问答代理的过程。这种方法与传统的 RAG(检索增强生成)不同,它强调数据提取的效率,而不是不加区分地分解和矢量化整个文档,这是主要的 RAG 方法。在传统的 RAG 中,每个文档都被分成块并进行矢量化以进行检索,这会导致大量不必要的数据被拆分、分块并存储在矢量索引中。然而,这里的重点是从每个合同中提取最相关的信息,以用于特定用例,即商业合同审查。然后将数据构建成知识图谱,该图谱组织关键实体和关系,从而允许通过 Cypher 查询和向量搜索进行更精确的图数据检索。通过最小化向量化内容的数量并专注于提取高度相关的知识,该方法提高了问答代理的准确性和性能,使其适合处理复杂和特定领域的问题。4 阶段方法包括:有针对性的信息提取(LLM + Prompt)以创建知识图谱(LLM + Neo4J)和一组简单的图数据检索函数(Cypher、Text to Cypher、Vector Search)。最后,利用数据的问答代理

来源:走向数据科学

,但首先,对于我们这些不熟悉商业法的人,让我们从简短的合同审查问题简介开始。

合同审查和大型语言模型

商业合同审查是一个劳动密集型过程,涉及律师助理和初级律师,并精心识别合同中的关键信息。

“合同审查是彻底阅读合同,以了解个人或公司签署该合同并评估相关影响的权利和义务”。 Hendrycks,Burns等人,Neurips 2021,在CUAD中
CUAD是由专家注册的NLP数据集用于法律合同审查

合同审查的第一阶段涉及审查数百页合同以查找相关条款或义务。合同审阅者必须确定是否存在相关条款,他们说的话是否存在,并跟踪描述的位置。

例如,他们必须确定合同是3年合同还是1年合同。他们必须确定合同的结束日期。他们必须确定一项条款是反分配还是排他性条款……” Hendrycks,Burns等人,Neurips 2021,在CUAD中,专家注销的NLP数据集用于法律合同审查

这是一项需要彻底性的任务,但通常患有低效率,但适合大型语言模型!

第一阶段完成后,高级法律从业人员可以开始检查弱点和风险的合同。这是一个由LLM提供动力并由知识图中存储的信息供电的问答代理商的领域,对于法律专家来说是一个完美的副本。

使用LLM,函数呼叫和GraphRag

该博客的其余部分将描述此过程中的每个步骤。一路上,我将使用代码片段来说明主要想法。

四个步骤是:

  • 从合同(LLM +合同)中提取相关信息
  • 数据集:

    a