详细内容或原文请订阅后点击阅览
理解 RAG 中的上下文和上下文检索
为什么传统 RAG 会丢失上下文以及上下文检索如何显着提高检索准确性《理解 RAG 中的上下文和上下文检索》一文首先出现在《走向数据科学》上。
来源:走向数据科学在我的最新文章中,我介绍了如何利用混合搜索来显着提高 RAG 管道的效率。 RAG 的基本版本仅使用嵌入的语义搜索,非常有效,使我们能够在自己的文档中利用人工智能的力量。尽管如此,语义搜索虽然功能强大,但在大型知识库中使用时,有时可能会错过用户查询的精确匹配,即使它们存在于文档中。传统 RAG 的这一弱点可以通过在管道中添加关键字搜索组件(例如 BM25)来解决。通过这种方式,结合语义和关键字搜索的混合搜索可以带来更全面的结果,并显着提高 RAG 系统的性能。
尽管如此,即使使用 RAG 进行混合搜索,我们有时仍然会错过分散在文档不同部分的重要信息。发生这种情况的原因是,当文档被分解为文本块时,有时上下文(即构成其含义一部分的块的周围文本)会丢失。对于复杂的文本尤其会发生这种情况,其含义相互关联并分散在多个页面中,并且不可避免地无法完全包含在单个块中。例如,想象一下,在多个不同的文本部分引用表格或图像,而没有明确定义我们所引用的表格(例如,“如表所示,利润增加了 6%”——哪个表格?)。因此,当检索文本块时,它们会被剥离其上下文,有时会导致检索不相关的块并生成不相关的响应。
。 。 。
上下文呢?
在谈论上下文检索之前,让我们先退后一步,谈谈上下文是什么。当然,我们都听说过法学硕士的背景或背景窗口,但它们到底是什么?
