详细内容或原文请订阅后点击阅览
每个数据科学家都应该知道的 10 个命令行工具
使用这些基本的 CLI 工具控制您的数据工作流程。
来源:KDnuggets# 简介
#尽管在现代数据科学中,您主要会发现 Jupyter 笔记本、Panda 和图形仪表板,但它们并不总能为您提供可能需要的控制级别。另一方面,命令行工具可能不像您希望的那么直观,但它们功能强大、轻量级,并且在执行其设计的特定作业时速度要快得多。
在本文中,我尝试在实用性、成熟度和功能之间取得平衡。您会发现一些几乎不可避免的经典,以及填补空白或优化性能的更现代的补充。您甚至可以将其称为 2025 版必备 CLI 工具列表。对于那些不熟悉 CLI 工具但想要学习的人,我在结论中包含了一个包含资源的奖励部分,因此在开始将这些工具包含在工作流程中之前,请一直向下滚动。
2025版必备CLI工具列表# 1. 卷曲
curl 是我发出 HTTP 请求(如 GET、POST 或 PUT)的首选;下载文件;通过 HTTP 或 FTP 等协议发送/接收数据。它非常适合从 API 检索数据或下载数据集,并且您可以轻松地将其与数据摄取管道集成以提取 JSON、CSV 或其他有效负载。关于curl 的最好的事情是它预装在大多数Unix 系统上,因此您可以立即开始使用它。然而,它的语法(特别是关于标头、正文有效负载和身份验证)可能很冗长且容易出错。当您与更复杂的 API 交互时,您可能更喜欢更易于使用的包装器或 Python 库,但了解 curl 仍然是快速测试和调试的重要优势。
卷曲# 2.jq
jq# 3.csvkit
csvkit csvtk# 4.qwk / sed
链接 (sed): https://www.gnu.org/software/sed/manual/sed.html awk sed# 5.并行
GNU 并行# 6.ripgrep (rg)
ripgreprg
.gitignore
grep
# 7.datamash
数据混搭标准输入
# 8.htop
htop顶部
