混乱矩阵变得简单:准确性,精度,召回和F1得分

如何评估分类模型并了解哪些度量最重要的是最重要的。

来源:走向数据科学

我们处理机器学习中的分类算法,例如逻辑回归,k-nearest邻居,支持向量分类器等,我们不使用评估指标,例如平均绝对错误(MAE),平均平方错误(MSE)或根平方误差(RMSE)。

分类算法

相反,我们生成了一个混乱矩阵,并基于混淆矩阵,分类报告。

在此博客中,我们旨在了解混淆矩阵是什么,如何使用它计算准确性,精度,召回和F1得分,以及如何根据数据的特征选择相关的度量标准。

要了解混淆矩阵和分类指标,让我们使用威斯康星州乳腺癌数据集。

威斯康星州乳腺癌数据集

该数据集由569行组成,每行提供有关肿瘤的各种特征及其诊断的信息,无论是恶性(癌)还是良性(非癌性)。

现在,让我们为这些数据构建一个分类模型,以根据其特征对肿瘤进行分类。

现在,我们将逻辑回归应用于该数据集上的模型。

代码:

在此,将逻辑回归应用于数据后,我们生成了一个混淆矩阵和分类报告来评估模型的性能。

首先让我们了解混乱矩阵

作者的图像

从上述混乱矩阵

60'表示正确预测的恶性肿瘤,我们称为“真正的阳性”。

’60' 正确预测恶性肿瘤 “真正的积极因素”。

“ 4”表示实际上是恶性肿瘤的错误预测的良性肿瘤,我们称为“假阴性”。

“ 4” 错误地预测了实际上是恶性肿瘤的良性肿瘤 “假否定”

“ 1”表示实际上是良性肿瘤的错误预测的恶性肿瘤,我们称为“假阳性”。

“ 1” 错误地预测实际是良性肿瘤的恶性肿瘤 “误报”。 “ 106” 正确预测良性肿瘤, “真正的负面因素”。