为个人 ML 项目构建实用的 MLOps

将基于笔记本的分析转变为可重复、可部署且可用于投资组合的 MLOps 项目的分步指南

来源:KDnuggets

简介

您可能已经完成了相当多的数据科学和机器学习项目。

它们非常适合提高技能并展示您所知道和学到的知识。但事情是这样的:他们常常达不到现实世界的生产级数据科学的样子。

在本文中,我们采用了一个项目——美国职业工资分析——并将其转化为“这已准备好供现实世界使用”的内容。

为此,我们将介绍一个简单但可靠的机器学习操作 (MLOps) 设置,其中涵盖从版本控制到部署的所有内容。

对于早期职业数据人员、自由职业者、投资组合构建者或任何希望自己的工作看起来像是来自专业设置的人(即使事实并非如此)来说,这非常有用。

在本文中,我们将超越笔记本项目:我们将设置 MLOps 结构,学习如何设置可重现的管道、模型工件、简单的本地应用程序编程接口 (API)、日志记录,以及最后如何生成有用的文档。

了解任务和数据集

该项目的场景由美国国家数据集组成,其中包含美国所有 50 个州和地区的年度职业工资和就业数据。这些数据详细说明了就业总数、平均工资、职业群体、工资百分位数以及地理标识符。

您的主要目标是:

  • 比较不同州和工作类别之间的工资差异
  • 运行统计测试(T 测试、Z 测试、F 测试)
  • 构建回归来了解就业与工资之间的关系
  • 可视化工资分布和职业趋势
  • 数据集的一些关键列:

  • OCC_TITLE— 职业名称
  • TOT_EMP— 总就业人数
  • A_MEAN— 平均年工资
  • PRIM_STATE— 州缩写
  • O_GROUP—职业类别(专业、总计、详细)
  • 您的任务是提供有关工资差异、工作分配和统计关系的可靠见解,但它并不止于此。

    从版本控制开始

    结论