我在 Polars 中重写了真实数据工作流程。熊猫没有机会。 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我在 Polars 中重写了真实数据工作流程。熊猫没有机会。

2026年5月7日 12:00 33 Comments

从 61 秒到 0.20 秒 - 以及我没想到的心理模型转变我在 Polars 中重写了真实数据工作流程的帖子。熊猫没有机会。首先出现在《走向数据科学》上。

来源:走向数据科学

— 我并没有积极寻找 Polars。

我最近经历了一段 Pandas 优化之旅。首先，我写了为什么你应该停止在 Pandas 中编写循环并以列的方式思考。

然后，我更深入地分析真实的工作流程，修复矢量化错误，最终仅使用更好的 Pandas 和 NumPy 将 61 秒的管道缩短至 0.33 秒。那个连我自己都感到惊讶。

所以我和 Pandas 相处得很好。我觉得我终于明白了如何正确使用它。

然后有人对我的一篇帖子发表了评论。大概是这样的：“你尝试过 Polars 吗？它就是为这种事情而设计的。”

我在数据社区中看到过这个名字。人们对此议论纷纷——关于速度，关于一种完全不同的数据管道思考方式。但我从未真正接触过它。

这个评论足以让我崩溃。

所以我做了我一直做的事情。我很好奇，我安装了它，并重写了与上一篇文章完全相同的工作流程，即我已经在 Pandas 中优化过的工作流程，这是我以前从未使用过的工具。

我的发现令我惊讶。不仅仅是速度数字，Polars 还悄悄地告诉您数据管道的实际工作原理。

公平的问题。

在我的上一篇文章中，我采用了缓慢的 Pandas 管道并将其优化为 0.33 秒。矢量化操作，正确的数据类型，没有不必要的副本。老实说，结果比我预期的要好。

那么我们为什么要谈论 Polar呢？

事情是这样的。我在那篇文章中所做的一切都是我手动进行的优化。我必须知道哪些操作很慢，为什么很慢，以及如何修复它们。在运行您的代码之前，Polars 会自动为您做很多这样的思考。

优化的 Pandas 令人印象深刻。但它仍然有上限。这篇文章是关于它的另一面的。

如果您想自己生成它，设置代码如下：

预先修复数据类型

标记高价值订单

1.35.2

设计的用过的修复工作为什么预期的相同的缓慢的管道不同的真实的一篇矢量化正确的评论方式数据类型优化必要的 Pandas 0.33 Polars 流程高价值数据工作原理