详细内容或原文请订阅后点击阅览
混乱矩阵变得简单:准确性,精度,召回和F1得分
如何评估分类模型并了解哪些度量最重要的是最重要的。
来源:走向数据科学我们处理机器学习中的分类算法,例如逻辑回归,k-nearest邻居,支持向量分类器等,我们不使用评估指标,例如平均绝对错误(MAE),平均平方错误(MSE)或根平方误差(RMSE)。
分类算法相反,我们生成了一个混乱矩阵,并基于混淆矩阵,分类报告。
在此博客中,我们旨在了解混淆矩阵是什么,如何使用它计算准确性,精度,召回和F1得分,以及如何根据数据的特征选择相关的度量标准。
要了解混淆矩阵和分类指标,让我们使用威斯康星州乳腺癌数据集。
威斯康星州乳腺癌数据集该数据集由569行组成,每行提供有关肿瘤的各种特征及其诊断的信息,无论是恶性(癌)还是良性(非癌性)。
现在,让我们为这些数据构建一个分类模型,以根据其特征对肿瘤进行分类。
现在,我们将逻辑回归应用于该数据集上的模型。
代码:
在此,将逻辑回归应用于数据后,我们生成了一个混淆矩阵和分类报告来评估模型的性能。
首先让我们了解混乱矩阵
从上述混乱矩阵
60'表示正确预测的恶性肿瘤,我们称为“真正的阳性”。
’60' 正确预测恶性肿瘤 “真正的积极因素”。“ 4”表示实际上是恶性肿瘤的错误预测的良性肿瘤,我们称为“假阴性”。
“ 4” 错误地预测了实际上是恶性肿瘤的良性肿瘤 “假否定”“ 1”表示实际上是良性肿瘤的错误预测的恶性肿瘤,我们称为“假阳性”。
“ 1” 错误地预测实际是良性肿瘤的恶性肿瘤 “误报”。 “ 106” 正确预测良性肿瘤, “真正的负面因素”。