Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持

Python 已经发展成为数据科学的主导,其包 Pandas 已成为数据分析的首选工具。它非常适合表格数据,如果您有大容量 RAM,它支持高达 1GB 的数据文件。在这些大小限制内,它也适用于时间序列数据,因为它带有一些[…]帖子 Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持首先出现在 Towards Data Science 上。

来源:走向数据科学

Python 已逐渐成为数据科学的主导,其软件包 Pandas 已成为数据分析的首选工具。它非常适合表格数据,如果您拥有大容量 RAM,则可支持高达 1GB 的数据文件。在这些大小限制内,它也非常适合时间序列数据,因为它带有一些内置支持。

话虽如此,当涉及到更大的数据集时,仅靠 Pandas 可能还不够。现代数据集呈指数级增长,无论它们来自金融、气候科学还是其他领域。

这意味着,截至今天,Pandas 是小型项目或探索性分析的绝佳工具。但是,当您面临更大的任务或想要快速扩展到生产时,它并不是很好。存在解决方法 - Dask、Spark、Polars 和 Chunking 就是其中的一些 - 但它们带来了额外的复杂性和瓶颈。

Dask Spark Polars 分块

我最近遇到了这个问题。我想看看过去 10 年的天气数据和能源公司的股价之间是否存在相关性。这里的理由是全球气温和化石燃料和可再生能源公司的股价演变之间可能存在敏感性。如果发现这种敏感性,那将是能源巨头 CEO 开始为自身利益削减排放的强烈信号。

我通过 Yahoo! Finance 的 API 很容易地获得了股价数据。我使用了 16 只股票和 ETF——7 只化石燃料公司、6 只可再生能源公司和 3 只能源 ETF——以及它们在 2013 年至 2023 年十年间的每日收盘价。这产生了大约 45,000 个数据点。对于 Pandas 来说,这简直是小菜一碟。

Yahoo! Finance 的 API Copernicus API 太多了 38 亿个数据点

那是很多数据点。 值得我硬盘上的 185 GB 空间。

ArcticDB Man Group

所以我尝试了 ArcticDB 来完成这个项目——而且我不会后悔。 我不会放弃 Pandas,但对于数十亿的数据集,我随时都会选择 ArcticDB 而不是 Pandas。

ArcticDB 新手指南

安装和设置

=