机器学习“降临节日历”奖励 1：Excel 中的 AUC XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

机器学习“降临节日历”奖励 1：Excel 中的 AUC

2025年12月30日 14:00 33 Comments

AUC 衡量模型将正数排在负数之上的程度，与任何选定的阈值无关。机器学习“降临日历”奖励 1：Excel 中的 AUC 帖子首先出现在《走向数据科学》上。

来源:走向数据科学

，我们将在Excel中实现AUC。

AUC 通常用于分类任务作为性能指标。

但我们从一个混淆矩阵开始，因为这是每个人实践的起点。然后我们就会明白为什么单个混淆矩阵是不够的。

我们还将回答以下问题：

AUC 表示曲线下面积，但在哪条曲线下呢？

这条曲线从何而来？

为什么该区域有意义？

AUC 是概率吗？（是的，它有概率解释）

分类器通常会给我们分数，而不是最终的决定。当我们选择阈值时，就会做出决定。

如果您阅读了之前的“降临节日历”文章，您已经知道“分数”可能意味着不同的含义，具体取决于型号系列：

基于距离的模型（例如 k-NN）通常会计算给定类的邻居比例（或基于距离的置信度），这会成为一个分数。

基于密度的模型计算每个类别下的可能性，然后标准化以获得最终（后验）概率。

分类基于树的模型通常会输出叶内训练样本中给定类别的比例（这就是许多点共享相同分数的原因）。

基于权重的模型（线性模型、内核、神经网络）计算加权和或非线性分数，有时应用校准步骤（Sigmoid、softmax、Platt 缩放等）将其映射到概率。

因此，无论采用哪种方法，我们最终都会遇到相同的情况：每个观察的分数。

然后，在实践中，我们选择一个阈值（通常为 0.5），并将分数转换为预测类别。

这正是混淆矩阵进入故事的地方。

一旦选择了阈值，每个观察结果就变成了二元决策：

预测为阳性 (1) 或预测为阴性 (0)

由此，我们可以数出四个数字：

TP（True Positives）：预测为 1，实际为 1

TN（True Negatives）：预测为 0，实际为 0

FPR= FP / (FP + TN)

置信度预测非线性相同的混淆不同的分类模型意味着实践的加权和型号系列神经网络给定为什么通常分数的分数 AUC 线性模型可能性最终的标准化分类器类别性能指标计算矩阵训练样本观察的阈值概率