详细内容或原文请订阅后点击阅览
初学者数据科学家的命令行数据清理
数据清理并不总是需要 Python 或 Excel。了解简单的命令行工具如何帮助您更快、更高效地清理数据集。
来源:KDnuggets# 简介
#当您考虑数据清理时,您可能会想到启动 Jupyter Notebook。但有些事情可能会让您感到惊讶:使用系统上已安装的工具,一些最强大的数据清理可以在您的终端中进行。
Jupyter 笔记本在本文中,您将学习如何使用基本的命令行实用程序来清理、转换和探索数据文件。无需安装;只是您的终端和一些 CSV 文件。
在我们开始在命令行清理数据之前,让我们先讨论一下为什么这很重要:
- 命令行工具易于使用、快速且高效,尤其是对于大文件。这些工具内置于 Linux/macOS 中,并且可在 Windows 上使用。它们非常适合在使用 Python 加载和分析数据之前首先查看数据。可以轻松地将命令链接到脚本中并使用这些脚本实现自动化。
现在,让我们开始编码吧!
注意:您可以在 GitHub 上找到此 Bash 脚本中的所有命令。为了充分利用本文,我鼓励您打开终端并编写代码。注意
# 设置示例数据
让我们创建一个凌乱的 CSV 文件来使用。这模拟了您可能会遇到的现实世界数据问题。
该数据集有几个常见问题:前导和尾随空格、缺失值和重复行。非常适合学习!
# 1. 通过 head、tail 和 wc 探索数据
头部
尾部
厕所
在清理数据之前,您需要了解您正在处理的内容。让我们从基础开始。
这是正在发生的事情:
头-n 5
尾-n 3
剪切
