初学者数据科学家的命令行数据清理

数据清理并不总是需要 Python 或 Excel。了解简单的命令行工具如何帮助您更快、更高效地清理数据集。

来源:KDnuggets
作者图片

# 简介

#

当您考虑数据清理时,您可能会想到启动 Jupyter Notebook。但有些事情可能会让您感到惊讶:使用系统上已安装的工具,一些最强大的数据清理可以在您的终端中进行。

Jupyter 笔记本

在本文中,您将学习如何使用基本的命令行实用程序来清理、转换和探索数据文件。无需安装;只是您的终端和一些 CSV 文件。

在我们开始在命令行清理数据之前,让我们先讨论一下为什么这很重要:

    命令行工具易于使用、快速且高效,尤其是对于大文件。这些工具内置于 Linux/macOS 中,并且可在 Windows 上使用。它们非常适合在使用 Python 加载和分析数据之前首先查看数据。可以轻松地将命令链接到脚本中并使用这些脚本实现自动化。
  • 命令行工具易于使用、快速且高效,尤其是对于大文件。
  • 这些工具内置于 Linux/macOS 中,并且可在 Windows 上使用。
  • 它们非常适合在使用 Python 加载和分析数据之前首先查看数据。
  • 在脚本中将命令链接在一起并使用这些脚本进行自动化很容易。
  • 现在,让我们开始编码吧!

    注意:您可以在 GitHub 上找到此 Bash 脚本中的所有命令。为了充分利用本文,我鼓励您打开终端并编写代码。
    注意

    # 设置示例数据

    让我们创建一个凌乱的 CSV 文件来使用。这模拟了您可能会遇到的现实世界数据问题。

    该数据集有几个常见问题:前导和尾随空格、缺失值和重复行。非常适合学习!

    # 1. 通过 head、tail 和 wc 探索数据

    头部 尾部 厕所

    在清理数据之前,您需要了解您正在处理的内容。让我们从基础开始。

    这是正在发生的事情:

  • head -n 5 显示前 5 行,让您快速预览。
  • 头-n 5 尾-n 3 剪切