Pandas 不会去任何地方：为什么它仍然是我处理数据的首选 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Pandas 不会去任何地方：为什么它仍然是我处理数据的首选

2026年5月17日 15:00 33 Comments

数十亿行可能是例外，但对于其他一切，Pandas 仍然是一个高度可靠的工具。 Pandas 不会去任何地方：为什么它仍然是我的数据整理首选文章首先出现在 Towards Data Science 上。

来源:走向数据科学

2020年学习数据科学，Pandas是最受欢迎的工具之一。尽管新工具专注于改善 Pandas 在处理非常大的数据集方面的弱点，但我仍然使用 Pandas 来执行许多数据清理、处理和分析任务。是的，Pandas 在处理数十亿行时给我带来了困难，但对于处理低于该行的任何内容来说，它绝对足够了。

我发现 Pandas 不仅用于 EDA 或笔记本电脑，还用于生产系统。

在本文中，我将介绍一些数据清理和处理操作，以展示 Pandas 的能力。

让我们从数据集开始，其中包含库存单位 (SKU) 和这些 SKU 的搜索 API 响应。

将 pandas 导入为 pd

search_results = pd.read_csv("search_results.csv")

search_results.head()搜索结果是字典列表，如下所示：search_results.loc[0, "search_result"]"[{'my_id': 'HBCV00007F5Y2B', '距离': 1.0, '实体': {}},{'my_id': 'HBCV00007UPQBM', '距离': 1.0, '实体': {}},{'my_id': 'HBCV00008I29IH', '距离': 1.0, '实体': {}},{'my_id': 'HBCV00006U3ZYB', '距离': 0.8961254358291626, '实体': {}},{'my_id': 'HBCV0000AFA4H6', '距离': 0.8702399730682373, '实体': {}},{'my_id': 'HBCV00009CDGD4', '距离': 0.86175537109375, '实体': {}},{'my_id': 'HBCV000046336T', '距离': 0.8594968318939209, '实体': {}},{'my_id': 'HBCV00009QDZRT', '距离': 0.8572311997413635, '实体': {}},{'my_id': 'HBCV00008E11P3', '距离': 0.8553324937820435, '实体': {}},{'my_id'：'HBV00000C4IY6'，'距离'：0.8539167642593384，'实体'：{}}]...还剩下 5 个实体”正如我们在输出中看到的，由于最后一部分（“...和剩余的 5 个实体”），它不是正确的字典格式列表。此外，它还保存为单个字符串。为了更好地利用它，我们需要将它转换为适当的字典列表。以下代码行通过在“...”处拆分字符串来删除最后一部分，并进行第一个拆分。

数据集受欢迎的适当的距离 id 字典处理正如实体 1.0 results 删除库存正确的 my 输出 ... search " 代码行用于字符串列表剩余的 Pandas 数据拆分

Pandas 不会去任何地方：为什么它仍然是我处理数据的首选

其他外部链接

Tags

XiaoMi-AI