如何评估 RAG 管道中的检索质量(第 2 部分):平均倒数排名 (MRR) 和平均精度 (AP)

使用二进制、顺序感知措施评估 RAG 管道的检索质量如何评估 RAG 管道中的检索质量(第 2 部分):平均倒数排名 (MRR) 和平均精度 (AP) 文章首先出现在 Towards Data Science 上。

来源:走向数据科学

如果您错过了第 1 部分:如何评估 RAG 管道中的检索质量,请在此处查看

第 1 部分:如何评估 RAG 管道中的检索质量 如何评估 RAG 管道中的检索质量 这里

在我之前的文章中,我研究了如何评估 RAG 管道的检索质量,以及一些基本指标。更具体地说,第一部分主要关注二进制、无顺序感知的度量,本质上是评估检索到的集合中是否存在相关结果。在第二部分中,我们将进一步探索二元的、订单感知的措施。也就是说,除了评估是否检索到每个相关结果之外,还考虑检索每个相关结果的排名。因此,在这篇文章中,我们将仔细研究两个常用的二元顺序感知指标:平均倒数排名 (MRR) 和平均精度 (AP)。

在我之前的文章中 平均倒数排名 (MRR) 平均精度 (AP)。

为什么排名在检索评估中很重要

有效的检索在 RAG 管道中非常重要,因为良好的检索机制是生成基于我们文档的有效答案的第一步。否则,如果一开始就无法识别包含所需信息的正确文档,则任何人工智能魔法都无法解决此问题并提供有效的答案。

我们可以区分两大类检索质量评估指标:二元指标和分级指标。更具体地说,二元度量将检索到的块分类为相关或不相关,没有中间情况。另一方面,当使用分级度量时,我们认为块与用户查询的相关性是一个谱,这样,检索到的块可以或多或少相关。

在我最新的帖子中, HitRate@K、Precision@K、Recall@K 和 F1@K 排名 MRR AP

我写了🍨DataCream,我正在其中学习和尝试人工智能和数据。在这里订阅,与我一起学习和探索。

数据奶油 在此订阅 RR