如何评估 RAG 管道中的检索质量(第 3 部分):DCG@k 和 NDCG@k

使用分级度量评估 RAG 管道的检索质量的第三部分也是最后一部分如何评估 RAG 管道中的检索质量(第 3 部分):DCG@k 和 NDCG@k 首先出现在 Towards Data Science 上。

来源:走向数据科学

请务必查看前面的部分:

请务必查看前面的部分

👉第 1 部分:Precision@k、Recall@k 和 F1@k

第 1 部分:Precision@k、Recall@k 和 F1@k Precision@k、Recall@k 和 F1@k

👉第 2 部分:平均倒数排名 (MRR) 和平均精度 (AP)

第 2 部分:平均倒数排名 (MRR) 和平均精度 (AP)

在我关于 RAG 管道检索评估措施的文章系列中,我们详细研究了二进制检索评估指标。更具体地说,在第 1 部分中,我们讨论了二进制、无顺序的检索评估指标,例如 HitRate@K、Recall@K、Precision@K 和 F1@K。二元的、无顺序的检索评估指标本质上是我们可以用来对检索机制的性能进行评分的最基本类型的度量;他们只是将结果分类为相关或不相关,并评估相关结果是否进入检索集。

然后,在第 2 部分中,我们回顾了二元的、顺序感知的评估指标,例如平均倒数排名 (MRR) 和平均精度 (AP)。二元顺序感知度量将结果分类为相关或不相关,并检查它们是否出现在检索集中,但除此之外,它们还量化结果的排名程度。换句话说,他们还考虑了每个结果被检索的排名,除了它是否首先被检索到之外。

在检索评估指标文章系列的最后一部分中,我将进一步详细说明二进制指标之外的其他大类指标。即分级指标。与结果要么相关或不相关的二元指标不同,对于分级指标,相关性更像是一个范围。通过这种方式,检索到的块可以或多或少与用户的查询相关。

分级指标 或多或少相关

我们将在今天的文章中讨论的两个常用的分级相关性指标是贴现累积增益 (DCG@K) 和标准化贴现累积增益 (NDCG@k)。

👉