详细内容或原文请订阅后点击阅览
用箭头在Python中有效的数据处理
将箭头介绍给那些仍然不知道其Power的人,在Python中,箭头有效的数据处理首先是迈向数据科学的。
来源:走向数据科学1。简介
我们都习惯于使用CSV,JSON文件……与传统库和大型数据集一起使用,这些读物的读写,写入和操作可能非常慢,从而导致性能瓶颈(在那里)。正是有大量数据,有效地处理数据对于我们的数据科学/分析工作流程至关重要,这正是Apache Arrow发挥作用的位置。
apache箭头为什么?主要原因在于如何将数据存储在内存中。例如,JSON和CSV是基于文本的格式,而Arrow是一种柱状内存数据格式(并且可以在不同的数据处理工具之间进行快速数据互换)。因此,箭头旨在通过启用零拷贝读取,减少内存使用和支持有效压缩来优化性能。
此外,Apache Arrow是开源的,并针对分析进行了优化。它旨在加速大数据处理,同时与Pandas,Spark和Dask等各种数据工具保持互操作性。通过以柱状格式存储数据,箭头可以更快地读取/写入操作和有效的内存使用情况,使其非常适合分析工作负载。
听起来很棒吗?最好的是,这就是我将提供的所有箭头的介绍。足够的理论,我们希望在行动中看到它。因此,在这篇文章中,我们将探讨如何在Python中使用Arrow以及如何充分利用它。
2。python中的箭头
要开始,您需要安装必要的库:Pandas和Pyarrow。
pip安装pyarrow pandas
pip安装pyarrow pandas
一如既往地将它们导入您的Python脚本:
将Pyarrow作为Paimport Pandas作为PD
将Pyarrow作为Paimport Pandas作为PD
还没有什么新鲜事物,只需完成以下操作的必要步骤即可。让我们从执行一些简单的操作开始。
2.1。创建和存储表
我们可以做的最简单的是表格数据的硬码。让我们创建一个带有足球数据的两列桌子:
pyarrow.tabledf = team_goals_table.to_pandas()