详细内容或原文请订阅后点击阅览
为什么 MAP 和 MRR 无法进行搜索排名(以及使用什么替代)
MAP和MRR看似直观,却悄悄打破了排名评价。以下是这些指标产生误导的原因以及更好的替代方案如何解决这一问题。为什么 MAP 和 MRR 无法进行搜索排名(以及使用什么替代)一文首先出现在 Towards Data Science 上。
来源:走向数据科学经常使用平均倒数排名 (MRR) 和平均平均精度 (MAP) 来评估其排名的质量。在这篇文章中,我们将讨论为什么 \(MAP\) 和 \(MRR\) 与搜索排名中的现代用户行为不一致。然后,我们研究两个可以作为\(MRR\) 和\(MAP\) 更好替代方案的指标。
什么是 MRR 和 MAP?
平均倒数排名 (MRR)
平均倒数排名 (\(MRR\)) 是第一个相关项目出现的平均排名。
$$\mathrm{RR} = \frac{1}{\text{第一个相关项的排名}}$$
在电子商务中,第一个相关排名可以是响应查询时点击的第一个项目的排名
对于上面的示例,假设相关项是第二项。这意味着:
$$\mathrm{倒数排名} = \frac{1}{2}$$
计算评估集中所有查询的倒数排名。为了获得所有查询的单一指标,我们取倒数排名的平均值来获得平均倒数排名
$$\mathrm{平均倒数排名} = \frac{1}{N}\sum_{i=1}^N {\frac{1}{\text{第一个相关项的排名}}}$$
其中 \(N\) 是查询数。从这个定义中,我们可以看出\(MRR\)专注于尽早获得一个相关结果。它不衡量第一个相关结果之后发生的情况。
平均精度 (MAP)
平均精度 (\(MAP\) 衡量系统检索相关项目的效果以及它们显示的时间。我们首先计算每个查询的平均精度 (AP)。我们将 AP 定义为
$$\mathrm{AP} = \frac{1}{|R|}\sum_{k=1}^{K}\mathrm{Precision@}k \cdot \mathbf{1}[\text{item at } k \text{ 相关}]$$
其中 \(|R|\) 是查询的相关项目数
\(\mathrm{MAP}\) 是
\(\mathrm{AP}\) 跨查询上面的等式看起来很多,其实很简单。让我们用一个例子来分解它。假设查询有 3 个相关项目,我们的模型预测以下顺序:
排名:1 2 3 4 5
项目:R N R N R
(R = 相关,N = 不相关)为了计算\(MAP\),我们计算每个相关位置的 AP:
