详细内容或原文请订阅后点击阅览
我使用 Pandas 清理了一个凌乱的 CSV 文件。这是我每次都遵循的确切流程。
停止猜测数据清理。使用这个可重复的 5 步 Python 工作流程来诊断和修复最常见的数据缺陷。帖子我使用 Pandas 清理了凌乱的 CSV 文件。这是我每次都遵循的确切流程。首先出现在《走向数据科学》上。
来源:走向数据科学完美。你会遇到很多数据不一致的情况。空值、负值、字符串不一致等。如果这些问题没有在数据分析工作流程的早期得到处理,那么以后查询和分析数据将变得很痛苦。
现在,我在使用 SQL 和 Excel 之前完成了数据清理,而不是使用 Python。因此,为了了解 Pandas(Python 的数据分析库之一),我将涉足一些数据清理。
在本文中,我将与您分享一个可重复、适合初学者的数据清理工作流程。读完本文后,您应该对使用 Python 进行数据清理和分析非常有信心。
我们将使用的数据集
我将使用一个合成的、混乱的 HR 数据集,其中包含典型的现实错误(不一致的日期、混合数据类型、复合列)。该数据集来自 Kaggle,旨在练习数据可视化和机器学习的数据清理、转换、探索性分析和预处理。
该数据集包含超过 1,000 行和 13 列,包括员工信息,例如姓名、部门-区域组合、联系方式、状态、工资和绩效分数。它包括以下示例:
- 重复项缺失值日期格式不一致错误条目(例如非数字工资值)复合列(例如“Department_Region”,如可拆分的“Cloud Tech-Texas”)
它包含如下列:
