在 GraphRAG 中拆分图表 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在 GraphRAG 中拆分图表

2024年11月19日 11:30 33 Comments

生成式 AI 实践中经常遇到的一个术语是检索增强生成 (RAG)。使用 RAG 的原因很明显：大型语言模型 (LLM) 实际上是语法引擎，它们倾向于通过从训练数据中编造答案来“产生幻觉”。这些随机的结果可能很有趣，尽管并非完全基于事实。RAG 提供了一种方法 [...]

来源:O'Reilly Media _AI & ML

生成式 AI 实践中经常遇到的一个术语是检索增强生成 (RAG)。使用 RAG 的原因很明显：大型语言模型 (LLM) 实际上是语法引擎，它们倾向于通过从训练数据中编造答案来“产生幻觉”。这些随机的结果可能很有趣，尽管并非完全基于事实。RAG 提供了一种在选定内容集中“确定”答案的方法。此外，与 LLM 昂贵的重新训练或微调相比，这种方法可以以低成本快速更新数据。请参阅主要来源“REALM：检索增强语言模型预训练”（谷歌的 Kelvin Guu 等人著）和“检索增强生成知识密集型 NLP 任务”（Facebook 的 Patrick Lewis 等人著）— 均发表于 2020 年。

检索增强生成 大型语言模型 REALM：检索增强语言模型预训练检索增强生成知识密集型 NLP 任务

以下是 RAG 的简单草图：

学得更快。挖得更深。看得更远。

从关于某个领域的文档集合开始。将每个文档拆分成块。通过嵌入模型运行每个文本块以计算其向量。将这些块存储在向量数据库中，并按其嵌入向量进行索引。

从关于某个领域的文档集合开始。

将每个文档拆分成块。

通过嵌入模型运行每个文本块以计算其向量。

嵌入模型

将这些块存储在向量数据库中，并按其嵌入向量进行索引。

当提出问题时，通过相同的嵌入模型运行其文本，确定哪些块是最近的邻居，然后将这些块作为排序列表呈现给 LLM 以生成响应。虽然整个过程在实践中可能更复杂，但这就是要点。

最近邻居 推荐系统 知识图谱 亚马逊 Alphabet 微软 LinkedIn eBay Pinterest

什么是 GraphRAG？

什么是 GraphRAG？ 跳转 Microsoft GraphRAG 实体

答案低成本增强实际上生成 LLM 倾向于训练知识模型文档语言嵌入 RAG GraphRAG 更新数据检索数据库向量