在 GraphRAG 中拆分图表
生成式 AI 实践中经常遇到的一个术语是检索增强生成 (RAG)。使用 RAG 的原因很明显:大型语言模型 (LLM) 实际上是语法引擎,它们倾向于通过从训练数据中编造答案来“产生幻觉”。这些随机的结果可能很有趣,尽管并非完全基于事实。RAG 提供了一种方法 [...]
来源:O'Reilly Media _AI & ML生成式 AI 实践中经常遇到的一个术语是检索增强生成 (RAG)。使用 RAG 的原因很明显:大型语言模型 (LLM) 实际上是语法引擎,它们倾向于通过从训练数据中编造答案来“产生幻觉”。这些随机的结果可能很有趣,尽管并非完全基于事实。RAG 提供了一种在选定内容集中“确定”答案的方法。此外,与 LLM 昂贵的重新训练或微调相比,这种方法可以以低成本快速更新数据。请参阅主要来源“REALM:检索增强语言模型预训练”(谷歌的 Kelvin Guu 等人著)和“检索增强生成知识密集型 NLP 任务”(Facebook 的 Patrick Lewis 等人著)— 均发表于 2020 年。
检索增强生成 大型语言模型 REALM:检索增强语言模型预训练 检索增强生成知识密集型 NLP 任务以下是 RAG 的简单草图:
学得更快。挖得更深。看得更远。
学得更快。挖得更深。看得更远。
- 从关于某个领域的文档集合开始。将每个文档拆分成块。通过嵌入模型运行每个文本块以计算其向量。将这些块存储在向量数据库中,并按其嵌入向量进行索引。
当提出问题时,通过相同的嵌入模型运行其文本,确定哪些块是最近的邻居,然后将这些块作为排序列表呈现给 LLM 以生成响应。虽然整个过程在实践中可能更复杂,但这就是要点。
最近邻居 推荐系统 知识图谱 亚马逊 Alphabet 微软 LinkedIn eBay Pinterest