关于 Pyjanitor 的方法链接功能及其有用的所有信息

干净的代码,干净的数据:为什么 Pyjanitor 的方法链接方法是实现这一双重目标的途径。

来源:KDnuggets

简介

在 Python 中集中处理数据给我们所有人上了重要的一课:数据清理通常感觉不太像执行数据科学,而更像是充当数字管理员。在大多数用例中,需要执行以下操作:加载数据集,发现许多列名称很混乱,遇到缺失值,最后得到大量临时数据变量,其中只有最后一个包含最终的干净数据集。

Pyjanitor 提供了一种更简洁的方法来执行这些步骤。该库可以与方法链的概念一起使用,将原本艰巨的数据清理过程转换为看起来优雅、高效且可读的管道。

本文展示了如何在 Pyjanitor 和数据清理的背景下揭开方法链的神秘面纱。

理解方法链

方法链接在编程领域并不是什么新鲜事:实际上,它是一种成熟的编码模式。它包括在一个对象上按顺序调用多个方法:所有这些都在一个语句中。这样,您不需要在每个步骤之后重新分配变量,因为每个方法都会返回一个调用下一​​个附加方法的对象,依此类推。

以下示例有助于理解其核心概念。观察我们如何使用“标准”Python 对一小段文本(字符串)进行一些简单的修改:

text = “你好世界!”

文本 = 文本.strip()

文本 = 文本.lower()

文本 = text.replace("world", "python")

文本中的结果值为:“hello python!”。

现在,通过方法链接,相同的过程将如下所示:

text = “你好世界!”clean_text = text.strip().lower().replace("world", "python")请注意,所应用的操作的逻辑流程是从左到右:全部都在一个统一的思想链中!# 传统的、逐步的 Pandas 方法df = pd.read_csv("data.csv")df.columns = df.columns.str.lower().str.replace(' ', '_')df = df.dropna(子集=['id'])df = df.drop_duplicates()总结