在50行的Python

使用紧凑的Python管道清洁和验证杂乱的数据,该管道适合任何工作流程。

来源:KDnuggets
作者的图像|意识形态图

数据很混乱。因此,当您从API中获取信息时,分析现实世界数据集等等,类似,您将不可避免地会遇到重复,缺失值和无效条目。精心设计的管道没有反复编写相同的清洁代码,可以节省时间并确保您的数据科学项目的一致性。

在本文中,我们将构建可重复使用的数据清洁和验证管道,以处理常见的数据质量问题,同时提供有关固定内容的详细反馈。最后,您将拥有一个工具,可以在仅几行代码中清洁数据集并根据业务规则进行验证。

🔗链接github上的代码

链接到GitHub上的代码

为什么要数据清洁管道?

考虑数据管道,例如制造中的装配线。每个步骤都执行一个特定的函数,一个步骤的输出成为下一个函数。这种方法使您的代码在不同项目中更可维护,可测试和可重复使用。

作者的简单数据清洁管道图表|图(draw.io)

我们的管道将处理三个核心职责:

    清洁:删除重复项并处理缺失的值(将其用作起点。您可以根据需要添加尽可能多的清洁步骤。)验证:确保数据符合业务规则和约束:跟踪处理过程中进行了哪些更改
  • 清洁:删除重复项并处理缺失值(将其用作起点。您可以根据需要添加尽可能多的清洁步骤。)
  • 验证:确保数据符合业务规则和约束
  • 报告:跟踪处理过程中进行了哪些更改
  • 设置开发环境

    请确保您正在使用最新版本的Python。如果在本地使用,请创建虚拟环境并安装所需的软件包:

    如果您愿意,您也可以使用Google Colab或类似的笔记本电脑环境。

    定义验证模式

    @field_validator @ClassMethod

    建立管道类

    编写数据清洁逻辑

    clean_data