详细内容或原文请订阅后点击阅览
None
开始使用五个免费的 Python 库,这些库可让您比传统 Pandas 更快地分析、过滤和处理数据。
来源:KDnuggets简介
开发人员使用 pandas 进行数据操作,但速度可能很慢,尤其是对于大型数据集。正因为如此,许多人正在寻找更快、更轻的替代品。这些选项保留了分析所需的核心功能,同时注重速度、较低的内存使用量和简单性。在本文中,我们将介绍您可以尝试的五种熊猫的轻量级替代方案。
1.DuckDB
DuckDB 就像用于分析的 SQLite。您可以直接对逗号分隔值 (CSV) 文件运行 SQL 查询。如果您了解 SQL 或使用机器学习管道,这会很有用。安装它:
我们将使用泰坦尼克号数据集并对其运行简单的 SQL 查询,如下所示:
导入鸭数据库
url =“https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv”
# 对 CSV 运行 SQL 查询
结果 = duckdb.query(f"""
选择性别、年龄、幸存
FROM read_csv_auto('{url}')
年龄 > 18 岁
