每个数据科学家都应该知道的 7 个 Pandas 性能技巧

在太多缓慢的笔记本和冻结的会话之后,我学到了如何让 Pandas 更快。每个数据科学家都应该知道的 7 个 Pandas 性能技巧后文章首先出现在《走向数据科学》上。

来源:走向数据科学

在一篇文章中,我介绍了一些 Python 中较新的 DataFrame 工具,例如 Polars 和 DuckDB。

我探索了它们如何增强数据科学工作流程并在处理大型数据集时更有效地执行。

这是文章的链接。

整个想法是让数据专业人员了解“现代数据框架”是什么样子,以及这些工具如何重塑我们处理数据的方式。

但有趣的事情发生了:从我得到的反馈中,我意识到很多数据科学家的大部分日常工作仍然严重依赖 Pandas。

我完全理解为什么。

即使有所有新的选择,Pandas 仍然是 Python 数据科学的支柱。

这甚至不仅仅是基于一些评论。

最近的数据科学现状调查报告称,77% 的从业者使用 Pandas 进行数据探索和处理。

我喜欢将 Pandas 视为您不断称呼的可靠老朋友:也许不是最华丽的,但您知道它总能完成工作。

因此,虽然较新的工具绝对有其优势,但很明显 Pandas 不会很快消失。

对于我们许多人来说,真正的挑战不是取代 Pandas,而是让它变得更高效,并且在处理更大的数据集时减轻一些痛苦。

在本文中,我将引导您了解加快 Pandas 工作流程的七种实用方法。这些实现起来很简单,但能够使您的代码明显更快。

设置和先决条件

在我们开始之前,这是您需要的。我在本教程中使用 Python 3.10+ 和 Pandas 2.x。如果您使用的是旧版本,您可以快速升级:

pip install --升级 pandas

这确实是您所需要的。标准环境(例如 Jupyter Notebook、VS Code 或 Google Colab)可以正常工作。

如果您已经像大多数人一样安装了 NumPy,则本教程中的其他所有内容都应该无需任何额外的设置即可运行。

1. 使用更智能的默认设置加快 read_csv

我记得第一次使用 2GB CSV 文件时的情景。