构建实际有用的机器学习模型的提示

超越概念验证的实用指南,可以到生产就绪的机器学习。

来源:KDnuggets
作者的图像|意识形态图

#简介

建立实际解决实际问题的机器学习模型不仅仅是在测试集上实现高精度分数。它是关于在生产环境中始终工作的构建系统。

本文提出了七个实用技巧,可以专注于建立可靠的业务价值的模型,而不仅仅是令人印象深刻的指标。让我们开始吧!

#1。从问题开始,而不是算法

机器学习项目中最常见的错误是在理解要解决的问题之前,将重点放在特定的技术上。在您甚至开始编码梯度增强模型或神经网络或开始高参数调整之前,请与实际使用您的模型的人们度过认真的时光。

实践中的样子:

    阴影现有的流程至少一周意识到假阳性的成本与虚假负面的成本与真实的falsevents in lir dollarSmap淘汰了整个模型的整个工作流程,您的模型将适应“足够好”的性能对于模型和您解决的问题
  • 阴影至少一个星期的现有过程
  • 了解假阳性的成本与真实美元的假否定成本
  • 映射您的模型将适合
  • 确定什么“足够好”的性能对模型和您要解决的问题意味着
  • 一种欺诈检测模型,捕获了95%的欺诈模式,但有合法交易的20%,因为可疑在数学上可能是令人印象深刻的,但在操作上毫无用处。最好的模型通常是可靠地移动业务针的最简单模型。

    #2。将数据质量视为您最重要的功能

    您的模型仅与您的数据一样好,但是大多数团队花在算法上的80%的时间和20%的数据质量上。翻转这个比率。清洁,代表性,富有理解的数据将每次都超过接受质量较差数据训练的花式算法。

    早期建立这些习惯:

  • 创建数据质量检查,该检查会自动运行每个管道
  • Shap