嵌入并不神奇:RAG 检索的可预测故障模式

企业文档智能 [卷。 1 #2] 为什么处理同义词和释义的相同矢量搜索在否定、精确标识符和贵公司的首字母缩略词方面会默默失败,以及失败时应使用什么。嵌入不是魔法:RAG 检索的可预测失败模式一文首先出现在《走向数据科学》上。

来源:走向数据科学

场景 1:一个包含数百页策略文档的 RAG 系统在一个小团队中上线。

  • 首先让大家印象深刻的是:它处理释义。有人问“我如何取消?”,该文档从未使用“取消”一词,它使用终止程序,并且系统无论如何都会找到它。
  • 另一个用户用法语询问,而政策是英语,然后返回正确的页面。这里有错别字,那里有拼音,没问题。几天后,团队确实留下了深刻的印象。 RAG 最接近魔法的就是坐在他们面前,并且不需要任何手工编码的同义词表即可使其发挥作用。
  • 场景 2:相同的系统,两周后。

  • 用户询问“承包商加班的规定是什么?”系统回答“我找不到该信息。”用户恰好是编写了本手册一半的业务专家,他皱起眉头,打开 PDF,在 Ctrl-F 中输入非员工劳动力,并在三秒钟内到达确切的段落。正确的关键词不是加班。这是该文档实际使用的术语。专家知道;嵌入没有。
  • 很快,更多像这样的案例浮出水面。否定被打破。准确的合同参考号被破坏。内部产品代码返回错误的等级。这些问题都无法通过更换嵌入提供程序来修复。
  • 该系列的立场,如前所述:大多数企业可靠性收益来自强大的上游过滤(专家关键字、文档结构),而不是来自堆叠在弱检索之上的重新排序器。

    经典堆栈按成本对层进行排名:

  • 底部的廉价嵌入相似性,
  • 之间的可选交叉编码器重新排序器,
  • 顶部的聊天完成 LLM。
  • 它们都不是魔法;它们都不是魔法。每个都以特定的方式中断。

    本文是更广泛的企业文档智能卷中的一篇文章。 1 系列,它从基线管道到语料库规模的架构,一砖一瓦地构建企业 RAG。

    1. 嵌入什么钉

    1.1 概念接近

    1.2 同义词和释义

    1.3 拼写错误和拼写错误