如何为AI搜索选择5个最相关的文档

改进了抹布管道的文档检索步骤,即如何选择5个最相关的文档以进行AI搜索,这首先出现在数据科学方面。

来源:走向数据科学

,我讨论了抹布管道的特定步骤:文档检索步骤。考虑到任何抹布系统的性能至关重要,考虑到没有获取最相关的文档,LLM正确回答用户的问题是一项挑战。我将讨论传统的方法,以获取最相关的文档,一些改进该文档的技术,以及您从抹布管道中获得更好的文档检索中看到的好处。

根据我上一篇关于用元数据丰富LLM上下文的文章,我将为本文写下我的主要目标:

用元数据丰富LLM上下文
我的本文目标是突出显示如何获取和过滤最相关的文档以供您进行AI搜索。
我的目标
该图展示了传统的抹布管道。您从使用嵌入模型进行编码的用户查询开始。然后,您将此嵌入与整个文档语料库的预定嵌入进行比较。通常,文档分为块,它们之间有一些重叠,尽管有些系统也只能与整个文档一起使用。计算嵌入相似性后,您只保留最相关的最相关文档,其中k是您选择的数字,通常是10到20之间的数字。获取鉴于语义相似性的最相关文档的步骤是当今文章的主题。获取了最相关的文档后,您将其与用户查询一起将其送入LLM,而LLM最终返回响应。作者的图像。

目录

为什么最佳文档检索很重要?

真正了解为什么文档获取步骤对任何RAG管道如此至关重要。要理解这一点,您还必须在抹布管道中概述流量:

  • 用户输入查询
  • 查询是嵌入的,您可以计算查询与每个单独文档(或文档的一部分)之间的相似性
  • 我们根据嵌入相似性获取最相关的文档
  • 重新养生