Pandas 不会去任何地方:为什么它仍然是我处理数据的首选

数十亿行可能是例外,但对于其他一切,Pandas 仍然是一个高度可靠的工具。 Pandas 不会去任何地方:为什么它仍然是我的数据整理首选文章首先出现在 Towards Data Science 上。

来源:走向数据科学

2020年学习数据科学,Pandas是最受欢迎的工具之一。尽管新工具专注于改善 Pandas 在处理非常大的数据集方面的弱点,但我仍然使用 Pandas 来执行许多数据清理、处理和分析任务。是的,Pandas 在处理数十亿行时给我带来了困难,但对于处理低于该行的任何内容来说,它绝对足够了。

我发现 Pandas 不仅用于 EDA 或笔记本电脑,还用于生产系统。

在本文中,我将介绍一些数据清理和处理操作,以展示 Pandas 的能力。

让我们从数据集开始,其中包含库存单位 (SKU) 和这些 SKU 的搜索 API 响应。

将 pandas 导入为 pd

search_results = pd.read_csv("search_results.csv")

search_results.head()搜索结果是字典列表,如下所示:search_results.loc[0, "search_result"]"[{'my_id': 'HBCV00007F5Y2B', '距离': 1.0, '实体': {}},{'my_id': 'HBCV00007UPQBM', '距离': 1.0, '实体': {}},{'my_id': 'HBCV00008I29IH', '距离': 1.0, '实体': {}},{'my_id': 'HBCV00006U3ZYB', '距离': 0.8961254358291626, '实体': {}},{'my_id': 'HBCV0000AFA4H6', '距离': 0.8702399730682373, '实体': {}},{'my_id': 'HBCV00009CDGD4', '距离': 0.86175537109375, '实体': {}},{'my_id': 'HBCV000046336T', '距离': 0.8594968318939209, '实体': {}},{'my_id': 'HBCV00009QDZRT', '距离': 0.8572311997413635, '实体': {}},{'my_id': 'HBCV00008E11P3', '距离': 0.8553324937820435, '实体': {}},{'my_id':'HBV00000C4IY6','距离':0.8539167642593384,'实体':{}}]...还剩下 5 个实体”正如我们在输出中看到的,由于最后一部分(“...和剩余的 5 个实体”),它不是正确的字典格式列表。此外,它还保存为单个字符串。为了更好地利用它,我们需要将它转换为适当的字典列表。以下代码行通过在“...”处拆分字符串来删除最后一部分,并进行第一个拆分。