详细内容或原文请订阅后点击阅览
抹布解释:重新掌握更好的答案
如何通过浮出水面的结果来改善重新启发的生成,该结果解释了邮政的解释:重读更好的答案首先出现在数据科学方面。
来源:走向数据科学,我们看了看一下抹布管道的检索机制的工作原理。在RAG管道中,根据用户查询的相似程度,确定和检索了来自知识库的相关文档。更具体地说,每个文本块的相似性都是使用检索度量标准来量化的,例如余弦相似性,L2距离或点产品作为度量,然后根据其相似性分数对文本块进行排名,最后,我们选择了与用户查询最相似的顶级文本块。
不幸的是,高相似性得分并不总是保证完美的相关性。换句话说,检索员可以检索具有很高相似性得分的文本块,但实际上并不有用 - 只是我们需要回答用户的问题🤷🏻♀️。这是引入重新排行榜的地方,作为在将其喂入LLM之前完善结果的一种方式。
总是 重新排名就像我以前的帖子一样,我将再次以战争和和平文本为例,被许可为公共领域,并可以通过Gutenberg项目轻松访问。
战争与和平 gutenberg项目🍨dataCream是一份通讯,提供有关AI,Data,Tech的故事和教程。如果您对这些主题感兴趣,请在此处订阅。DataCream是一份通讯,提供有关AI,Data,Tech的故事和教程。如果您对这些主题感兴趣,请在此处订阅。 datacream 在此处订阅。 在此处订阅
••••
Reranking呢?
仅根据检索度量检索的文本块(即原始检索)可能没有多种原因而有用:
原始检索