详细内容或原文请订阅后点击阅览
我在 Polars 中重写了真实数据工作流程。熊猫没有机会。
从 61 秒到 0.20 秒 - 以及我没想到的心理模型转变我在 Polars 中重写了真实数据工作流程的帖子。熊猫没有机会。首先出现在《走向数据科学》上。
来源:走向数据科学— 我并没有积极寻找 Polars。
我最近经历了一段 Pandas 优化之旅。首先,我写了为什么你应该停止在 Pandas 中编写循环并以列的方式思考。
然后,我更深入地分析真实的工作流程,修复矢量化错误,最终仅使用更好的 Pandas 和 NumPy 将 61 秒的管道缩短至 0.33 秒。那个连我自己都感到惊讶。
所以我和 Pandas 相处得很好。我觉得我终于明白了如何正确使用它。
然后有人对我的一篇帖子发表了评论。大概是这样的:“你尝试过 Polars 吗?它就是为这种事情而设计的。”
我在数据社区中看到过这个名字。人们对此议论纷纷——关于速度,关于一种完全不同的数据管道思考方式。但我从未真正接触过它。
这个评论足以让我崩溃。
所以我做了我一直做的事情。我很好奇,我安装了它,并重写了与上一篇文章完全相同的工作流程,即我已经在 Pandas 中优化过的工作流程,这是我以前从未使用过的工具。
我的发现令我惊讶。不仅仅是速度数字,Polars 还悄悄地告诉您数据管道的实际工作原理。
熊猫还不够吗?
公平的问题。
在我的上一篇文章中,我采用了缓慢的 Pandas 管道并将其优化为 0.33 秒。矢量化操作,正确的数据类型,没有不必要的副本。老实说,结果比我预期的要好。
那么我们为什么要谈论 Polar呢?
事情是这样的。我在那篇文章中所做的一切都是我手动进行的优化。我必须知道哪些操作很慢,为什么很慢,以及如何修复它们。在运行您的代码之前,Polars 会自动为您做很多这样的思考。
优化的 Pandas 令人印象深刻。但它仍然有上限。这篇文章是关于它的另一面的。
工作流程
如果您想自己生成它,设置代码如下:
1.35.2
