我使用 Pandas 清理了一个凌乱的 CSV 文件。这是我每次都遵循的确切流程。

停止猜测数据清理。使用这个可重复的 5 步 Python 工作流程来诊断和修复最常见的数据缺陷。帖子我使用 Pandas 清理了凌乱的 CSV 文件。这是我每次都遵循的确切流程。首先出现在《走向数据科学》上。

来源:走向数据科学

完美。你会遇到很多数据不一致的情况。空值、负值、字符串不一致等。如果这些问题没有在数据分析工作流程的早期得到处理,那么以后查询和分析数据将变得很痛苦。

现在,我在使用 SQL 和 Excel 之前完成了数据清理,而不是使用 Python。因此,为了了解 Pandas(Python 的数据分析库之一),我将涉足一些数据清理。

在本文中,我将与您分享一个可重复、适合初学者的数据清理工作流程。读完本文后,您应该对使用 Python 进行数据清理和分析非常有信心。

我们将使用的数据集

我将使用一个合成的、混乱的 HR 数据集,其中包含典型的现实错误(不一致的日期、混合数据类型、复合列)。该数据集来自 Kaggle,旨在练习数据可视化和机器学习的数据清理、转换、探索性分析和预处理。

该数据集包含超过 1,000 行和 13 列,包括员工信息,例如姓名、部门-区域组合、联系方式、状态、工资和绩效分数。它包括以下示例:

    重复项缺失值日期格式不一致错误条目(例如非数字工资值)复合列(例如“Department_Region”,如可拆分的“Cloud Tech-Texas”)
  • 重复
  • 缺失值
  • 日期格式不一致
  • 错误条目(例如,非数字工资值)
  • 复合列(例如,“Department_Region”,如可拆分的“Cloud Tech-Texas”)
  • 它包含如下列:

  • Employee_ID:唯一的合成 ID(例如 EMP1001)
  • First_Name、Last_Name:随机生成的个人姓名
  • 姓名:全名(名字/姓氏可能是多余的)
  • 年龄:包括缺失值
  • Department_Region:复合列(例如“HR-Florida”)
  • 状态:员工状态(活跃、非活跃、待定)
  • Join_Date:格式不一致(YYYY/MM/DD)
  • 薪资:包括无效条目(例如“N/A”)
  • 这里
  • 加载
  • 检查
  • 干净
  • 0