从机器学习工程师那里学习 - 第3部分:评估

在我系列的第三部分中,我将探索评估过程,这是一个关键部分,它将导致更清洁的数据集并提高模型性能。我们将看到对训练有素的模型的评估(尚未生产)和对部署模型的评估(一个做真实的预测)之间的区别。在第1部分中,[…]从机器学习工程师那里学习的帖子学习 - 第3部分:评估首先是针对数据科学的。

来源:走向数据科学

在我系列的第三部分中,我将探索评估过程,这是一个关键部分,它将导致更清洁的数据集并提高模型性能。我们将看到对训练有素的模型的评估(尚未生产)和对部署模型的评估(一个做真实的预测)之间的区别。

训练有素 部署

在第1部分中,我讨论了在图像分类项目中使用的图像数据标记的过程。我展示了如何定义“良好”图像并创建子类。在第2部分中,我浏览了各种数据集,超出了通常的火车验证测试集,例如基准集,以及如何处理合成数据和重复图像。

第1部分 图像分类 第2部分

评估训练的模型

评估训练的模型

作为机器学习工程师,我们会查看准确性,F1,日志损失和其他指标,以决定模型是否准备好移动生产。这些都是重要的措施,但是根据我的经验,这些分数可能是欺骗的,尤其是随着班级数量的增长。

尽管可能会很耗时,但我发现手动查看模型错误的图像以及模型给出较低的SoftMax“信心”分数的图像非常重要。这意味着在训练运行完成后立即添加一步以计算所有图像的分数 - 培训,验证,测试和基准集。您只需要提起手动审查该模型有问题的手册即可。这仅是图像总数的一小部分。请参阅下面的双检查过程

错误 全部

您在手动评估中所做的工作是将自己置于“培训思维方式”中,以确保您在第1部分中设置的标签标准。问问自己:

培训心态 第1部分
    “这是一个好图像吗?”主题是前面和中心吗?您能清楚地看到所有功能吗?“这是正确的标签吗?”如果您发现错误的标签,请不要感到惊讶。
那个 其他