ROC AUC解释:评估分类模型的初学者指南

了解ROC曲线和AUC如何帮助您通过视觉效果和示例超越准确性。论到ROC AUC的解释:评估分类模型的初学者指南首先出现在数据科学方面。

来源:走向数据科学

在混淆矩阵上,我们将Logistic回归算法应用于威斯康星州乳腺癌数据集,以分类肿瘤是恶性还是良性。

混乱矩阵

我们使用各种指标(例如精度,精度等)评估了分类模型。

现在,在二进制分类模型中,我们有另一种评估该模型的方法,这就是Roc AUC。

ROC AUC

在此博客中,我们将讨论为什么要使用另一个指标以及何时使用它。

要详细了解ROC AUC,我们将考虑IBM HR Analytics数据集。

IBM HR Analytics 在此数据集中,我们拥有有关1,470名员工的信息,例如他们的年龄,工作角色,性别,每月收入,工作满意度等。 总共有34个描述每个员工的功能。 我们还有一个目标列“损耗”,如果员工离开公司,则是“是”,如果员工留下来,则“否”。 “消耗” “是” “ no” 让我们看一下目标列的类分布。 作者的图像 从上面的类分布中,我们可以观察到数据集不平衡。 不平衡 现在,我们需要根据此数据建立一个模型,以根据员工是否留在公司中对员工进行分类。 由于这是一个二进制分类(是/否)任务,因此让我们在此数据上使用Logistic回归算法。 代码: 混淆矩阵和分类报告 从上述分类报告中,我们观察到准确性为86%。但是,召回“ 1”(损耗=是,这意味着员工离开了工作)为0.34,表明该模型仅正确地识别了34%离开工作的员工。 “ 1” 召回“ 0”(损耗=否,这意味着员工留在工作中)为0.96,表明该模型正确地识别了96%的住宿员工。 “ 0” 这是由于数据集不平衡而发生的。准确性在这里可能会产生误导。 这是否意味着我们需要更改算法? 首先,我们将讨论接收器操作特征(ROC)曲线。 有什么可能的阈值? 召回

IBM HR Analytics

在此数据集中,我们拥有有关1,470名员工的信息,例如他们的年龄,工作角色,性别,每月收入,工作满意度等。

总共有34个描述每个员工的功能。

我们还有一个目标列“损耗”,如果员工离开公司,则是“是”,如果员工留下来,则“否”。 “消耗” “是”

“ no”

让我们看一下目标列的类分布。

作者的图像

从上面的类分布中,我们可以观察到数据集不平衡。

不平衡

现在,我们需要根据此数据建立一个模型,以根据员工是否留在公司中对员工进行分类。

由于这是一个二进制分类(是/否)任务,因此让我们在此数据上使用Logistic回归算法。

代码:

混淆矩阵和分类报告

从上述分类报告中,我们观察到准确性为86%。但是,召回“ 1”(损耗=是,这意味着员工离开了工作)为0.34,表明该模型仅正确地识别了34%离开工作的员工。

“ 1”

召回“ 0”(损耗=否,这意味着员工留在工作中)为0.96,表明该模型正确地识别了96%的住宿员工。

“ 0”

这是由于数据集不平衡而发生的。准确性在这里可能会产生误导。

这是否意味着我们需要更改算法?

首先,我们将讨论接收器操作特征(ROC)曲线。

有什么可能的阈值?召回