用箭头在Python中有效的数据处理

将箭头介绍给那些仍然不知道其Power的人,在Python中,箭头有效的数据处理首先是迈向数据科学的。

来源:走向数据科学

1。简介

我们都习惯于使用CSV,JSON文件……与传统库和大型数据集一起使用,这些读物的读写,写入和操作可能非常慢,从而导致性能瓶颈(在那里)。正是有大量数据,有效地处理数据对于我们的数据科学/分析工作流程至关重要,这正是Apache Arrow发挥作用的位置。

apache箭头

为什么?主要原因在于如何将数据存储在内存中。例如,JSON和CSV是基于文本的格式,而Arrow是一种柱状内存数据格式(并且可以在不同的数据处理工具之间进行快速数据互换)。因此,箭头旨在通过启用零拷贝读取,减少内存使用和支持有效压缩来优化性能。

此外,Apache Arrow是开源的,并针对分析进行了优化。它旨在加速大数据处理,同时与Pandas,Spark和Dask等各种数据工具保持互操作性。通过以柱状格式存储数据,箭头可以更快地读取/写入操作和有效的内存使用情况,使其非常适合分析工作负载。

听起来很棒吗?最好的是,这就是我将提供的所有箭头的介绍。足够的理论,我们希望在行动中看到它。因此,在这篇文章中,我们将探讨如何在Python中使用Arrow以及如何充分利用它。

2。python中的箭头

要开始,您需要安装必要的库:Pandas和Pyarrow。

pip安装pyarrow pandas
pip安装pyarrow pandas

一如既往地将它们导入您的Python脚本:

将Pyarrow作为Paimport Pandas作为PD
将Pyarrow作为Paimport Pandas作为PD

还没有什么新鲜事物,只需完成以下操作的必要步骤即可。让我们从执行一些简单的操作开始。

2.1。创建和存储表

我们可以做的最简单的是表格数据的硬码。让我们创建一个带有足球数据的两列桌子:

pyarrow.table
df = team_goals_table.to_pandas()

2.2。计算功能

免费