初学者数据科学家的命令行统计

您不需要 Python 或 R 来开始处理数据。本指南将引导您使用内置的 Unix 实用程序进行真正的统计分析。

来源:KDnuggets
图片由编辑提供

# 简介

#

如果您刚刚开始数据科学之旅,您可能会认为需要 Python、R 或其他软件等工具来对数据进行统计分析。然而,命令行已经是一个强大的统计工具包。

命令行工具通常可以比将大型数据集加载到占用大量内存的应用程序中更快地处理它们。它们很容易编写脚本和自动化。此外,这些工具可以在任何 Unix 系统上运行,无需安装任何东西。

不带

在本文中,您将学习如何仅使用内置的 Unix 工具直接从终端执行基本的统计操作。

🔗 这是 GitHub 上的 Bash 脚本。强烈建议一起编码以充分理解这些概念。
GitHub 上的 Bash 脚本

要学习本教程,您将需要:

    您将需要一个类 Unix 环境(Linux、macOS 或带有 WSL 的 Windows)。我们将仅使用已安装的标准 Unix 工具。
  • 您将需要一个类 Unix 环境(Linux、macOS 或带有 WSL 的 Windows)。
  • 我们将仅使用已安装的标准 Unix 工具。
  • 打开终端开始。

    # 设置示例数据

    在分析数据之前,我们需要一个数据集。通过在终端中运行以下命令来创建一个代表每日网站流量的简单 CSV 文件:

    cat > 流量.csv << EOF
    日期、访客、页面浏览量、跳出率
    2024-01-01,1250,4500,45.2
    2024-01-02,1180,4200,47.1
    2024-01-03,1520,5800,42.3
    2024-01-04,1430,5200,43.8
    2024-01-05,980,3400,51.2
    2024-01-06,1100,3900,48.5
    2024-01-07,1680,6100,40.1
    2024-01-08,1550,5600,41.9
    2024-01-09,1420,5100,44.2
    2024-01-10,1290,4700,46.3
    EOF

    这将创建一个名为 Traffic.csv 的新文件,其中包含标题和十行示例数据。

    交通.csv

    # 探索您的数据

    // 计算数据集中的行数

    //

    数据集中首先要识别的事情之一是它包含的记录数。带有 -l 标志的 wc(字数统计)命令计算文件中的行数:

    厕所 -l 11 流量.csv

    // 查看您的数据

    头部

    // 提取单列

    剪切 尾部-n +2