详细内容或原文请订阅后点击阅览
停止在 Pandas 中编写循环:7 个更快的替代方案可供尝试
在本文中,您将学习如何用 7 种更快的方法替换 pandas 循环,以优化数据处理。
来源:KDnuggets简介
逐行迭代是 pandas 代码中最常见的性能瓶颈之一。在小型数据集上,它不会被注意到,但对于处理大型数据集,这会产生影响。
pandas 构建在 NumPy 之上,它使用编译的 C 代码一次性对整个数组执行操作。在 Python 中循环行完全绕过了这一点,并将每个操作强制返回到 Python 解释器中——一次一行。
本文介绍了 pandas 中循环的 7 种替代方案,每种方案都适合不同类型的转换。最后,您将清楚地了解根据问题的情况使用哪种工具。
您可以在 GitHub 上获取 Colab 笔记本。
设置示例数据集
我们将在本文中使用真实的电子商务订单数据集:
将 pandas 导入为 pd
将 numpy 导入为 np
np.随机.种子(42)
n = 100_000
类别 = ['电子产品'、'服装'、'家居和厨房'、'体育'、'书籍']
