在 GraphRAG 中拆分图表

生成式 AI 实践中经常遇到的一个术语是检索增强生成 (RAG)。使用 RAG 的原因很明显:大型语言模型 (LLM) 实际上是语法引擎,它们倾向于通过从训练数据中编造答案来“产生幻觉”。这些随机的结果可能很有趣,尽管并非完全基于事实。RAG 提供了一种方法 [...]

来源:O'Reilly Media _AI & ML

生成式 AI 实践中经常遇到的一个术语是检索增强生成 (RAG)。使用 RAG 的原因很明显:大型语言模型 (LLM) 实际上是语法引擎,它们倾向于通过从训练数据中编造答案来“产生幻觉”。这些随机的结果可能很有趣,尽管并非完全基于事实。RAG 提供了一种在选定内容集中“确定”答案的方法。此外,与 LLM 昂贵的重新训练或微调相比,这种方法可以以低成本快速更新数据。请参阅主要来源“REALM:检索增强语言模型预训练”(谷歌的 Kelvin Guu 等人著)和“检索增强生成知识密集型 NLP 任务”(Facebook 的 Patrick Lewis 等人著)— 均发表于 2020 年。

检索增强生成 大型语言模型 REALM:检索增强语言模型预训练 检索增强生成知识密集型 NLP 任务

以下是 RAG 的简单草图:

学得更快。挖得更深。看得更远。

学得更快。挖得更深。看得更远。

    从关于某个领域的文档集合开始。将每个文档拆分成块。通过嵌入模型运行每个文本块以计算其向量。将这些块存储在向量数据库中,并按其嵌入向量进行索引。
  • 从关于某个领域的文档集合开始。
  • 将每个文档拆分成块。
  • 通过嵌入模型运行每个文本块以计算其向量。
  • 嵌入模型
  • 将这些块存储在向量数据库中,并按其嵌入向量进行索引。
  • 当提出问题时,通过相同的嵌入模型运行其文本,确定哪些块是最近的邻居,然后将这些块作为排序列表呈现给 LLM 以生成响应。虽然整个过程在实践中可能更复杂,但这就是要点。

    最近邻居 推荐系统 知识图谱 亚马逊 Alphabet 微软 LinkedIn eBay Pinterest

    什么是 GraphRAG?

    什么是 GraphRAG? 跳转 Microsoft GraphRAG 实体