抹布解释:重新掌握更好的答案

如何通过浮出水面的结果来改善重新启发的生成,该结果解释了邮政的解释:重读更好的答案首先出现在数据科学方面。

来源:走向数据科学

,我们看了看一下抹布管道的检索机制的工作原理。在RAG管道中,根据用户查询的相似程度,确定和检索了来自知识库的相关文档。更具体地说,每个文本块的相似性都是使用检索度量标准来量化的,例如余弦相似性,L2距离或点产品作为度量,然后根据其相似性分数对文本块进行排名,最后,我们选择了与用户查询最相似的顶级文本块。

不幸的是,高相似性得分并不总是保证完美的相关性。换句话说,检索员可以检索具有很高相似性得分的文本块,但实际上并不有用 - 只是我们需要回答用户的问题🤷🏻‍♀️。这是引入重新排行榜的地方,作为在将其喂入LLM之前完善结果的一种方式。

总是 重新排名

就像我以前的帖子一样,我将再次以战争和和平文本为例,被许可为公共领域,并可以通过Gutenberg项目轻松访问。

战争与和平 gutenberg项目
🍨dataCream是一份通讯,提供有关AI,Data,Tech的故事和教程。如果您对这些主题感兴趣,请在此处订阅。
DataCream是一份通讯,提供有关AI,Data,Tech的故事和教程。如果您对这些主题感兴趣,请在此处订阅。 datacream 在此处订阅。 在此处订阅

••••

Reranking呢?

仅根据检索度量检索的文本块(即原始检索)可能没有多种原因而有用:

原始检索
  • 我们最终发现的所检索的块在很大程度上变化了所选数量的顶部块k。根据我们检索到的顶级块的数量K,我们可能会得到非常不同的结果。
  • 我们可能会检索在语义上接近我们想要的内容的块,但仍然偏离主题,实际上,不适合回答用户的查询。
  • “战争与和平” ‘谁是安娜·帕夫洛夫纳(AnnaPávlovna)?’ ‘AnnaPávlovna’ 用交叉编码器重新启动

    ‘AnnaPávlovna’用交叉编码器重新启动