详细内容或原文请订阅后点击阅览
您的文档试图告诉您什么是相关的:使用链接更好地进行 RAG
文档数据集已经具有结构。充分利用它。照片由 Jayne Harris 在 Unsplash 上拍摄构建检索增强生成 (RAG) 应用程序面临多层挑战。文档检索是 RAG 工作流程的重要组成部分,它本身就是一组复杂的步骤,可以根据用例以不同的方式处理。RAG 系统很难找到与细微输入提示相关的最佳文档集,尤其是在完全依赖向量搜索来找到最佳候选者时。然而,我们的文档本身通常会告诉我们应该在哪里寻找有关给定主题的更多信息——通过引文、交叉引用、脚注、超链接等。在本文中,我们将展示一种新的数据模型——链接文档——如何通过使我们能够解析和保留这些对其他文本的直接引用来解锁性能改进,使它们可供同时检索——无论它们是否被向量搜索忽略。人工智能捕捉复杂性,但不捕捉结构当回答复杂或细微的问题需要来自不同文档的支持细节时,RAG 系统通常很难找到做出明智而完整的答复所需的所有相关文档。然而,我们几乎完全依赖文本嵌入和向量相似性来定位和检索相关文档。一个经常被低估的事实是:在解析、分块和嵌入文本的过程中会丢失大量文档信息。文档
来源:None您的文档试图告诉您什么相关:使用链接更好的抹布
文档数据集已经具有结构。利用它。
Jayne Harris Unplash在建造检索型生成(RAG)应用程序中存在分层挑战。文档检索是抹布工作流的很大一部分,本身就是一组复杂的步骤,可以根据用例以不同的方式接近。
抹布系统很难找到与细微的输入提示有关的最佳文档集,尤其是在完全依靠向量搜索来找到最佳候选者时。然而,通常我们的文档本身会告诉我们应该在哪里寻找有关给定主题的更多信息 - 通过引用,交叉引用,脚注,超链接等。在本文中,我们将展示新的数据模型(链接的文档)如何通过使我们可以同时进行这些文本,使他们无法同时检验,从而释放了绩效的改进,以使我们能够进行这些直接参考。
AI捕获复杂性,但不能结构
在回答需要不同文档中支持细节的复杂或细微的问题时,抹布系统通常很难找到一个信息良好且完整的答复所需的所有相关文档。但是,我们几乎不仅依赖文本嵌入和矢量相似性来找到和检索相关文档。
一个经常被理解的事实:在解析,分解和嵌入文本的过程中丢失了许多文档信息。文档结构(包括层次结构,标题,脚注,交叉引用,引用和超链接)在典型的文本对矢量工作流程中几乎完全丢失,除非我们采取特定的措施来保留它们。当结构和元数据告诉我们其他文档与我们正在阅读的内容直接相关时,为什么我们不应该保留此信息?
文档链接链接的数据模型
kW:西雅图
和