机器学习“降临节日历”奖励 1:Excel 中的 AUC

AUC 衡量模型将正数排在负数之上的程度,与任何选定的阈值无关。机器学习“降临日历”奖励 1:Excel 中的 AUC 帖子首先出现在《走向数据科学》上。

来源:走向数据科学

,我们将在Excel中实现AUC。

AUC 通常用于分类任务作为性能指标。

但我们从一个混淆矩阵开始,因为这是每个人实践的起点。然后我们就会明白为什么单个混淆矩阵是不够的。

我们还将回答以下问题:

  • AUC 表示曲线下面积,但在哪条曲线下呢?
  • 这条曲线从何而来?
  • 为什么该区域有意义?
  • AUC 是概率吗? (是的,它有概率解释)
  • 1. 为什么混淆矩阵还不够

    1.1 模型得分

    分类器通常会给我们分数,而不是最终的决定。当我们选择阈值时,就会做出决定。

    如果您阅读了之前的“降临节日历”文章,您已经知道“分数”可能意味着不同的含义,具体取决于型号系列:

  • 基于距离的模型(例如 k-NN)通常会计算给定类的邻居比例(或基于距离的置信度),这会成为一个分数。
  • 基于密度的模型计算每个类别下的可能性,然后标准化以获得最终(后验)概率。
  • 分类 基于树的模型通常会输出叶内训练样本中给定类别的比例(这就是许多点共享相同分数的原因)。
  • 基于权重的模型(线性模型、内核、神经网络)计算加权和或非线性分数,有时应用校准步骤(Sigmoid、softmax、Platt 缩放等)将其映射到概率。
  • 因此,无论采用哪种方法,我们最终都会遇到相同的情况:每个观察的分数。

    然后,在实践中,我们选择一个阈值(通常为 0.5),并将分数转换为预测类别。

    这正是混淆矩阵进入故事的地方。

    1.2 某一阈值的混淆矩阵

    一旦选择了阈值,每个观察结果就变成了二元决策:

  • 预测为阳性 (1) 或预测为阴性 (0)
  • 由此,我们可以数出四个数字:

  • TP(True Positives):预测为 1,实际为 1
  • TN(True Negatives):预测为 0,实际为 0
  • FPR= FP / (FP + TN)