初学者的数据分析指南

Polars是一个闪电般的数据框架库,非常适合快速,可扩展的数据分析。本指南涵盖了让您入门的基础知识。

来源:KDnuggets
作者的图像|意识形态图

#简介

当您与Python分析新手时,Pandas通常是大多数分析师学习和使用的东西。但是,牙液已经变得超级流行,更快,更高效。

pandas PORARS

内置生锈,Polars处理可以减慢其他工具的数据处理任务。它是为了速度,记忆效率和易用性而设计的。在这篇对初学者友好的文章中,我们将介绍虚构的咖啡店数据并进行分析以学习Porars。听起来很有趣吗?让我们开始吧!

🔗链接github上的代码

链接到GitHub上的代码

#安装Polars 我们潜入分析数据之前,让我们避免安装步骤。首先,安装极点: ! PIP安装Polars Numpy 现在,让我们导入库和模块: 导入Pol作为PL 导入numpy作为NP 从DateTime Import DateTime,TimeDelta 我们将PL用作Polars的别名。 pl #创建示例数据 想象一下,您正在管理一家小型咖啡店,说“豆”,并有数百个收据和相关数据进行分析。您想了解哪种饮料卖得最好,哪几天带来的收入最多以及相关问题。是的,让我们开始编码! ☕ 为了使本指南实用,让我们为“豆类咖啡店”创建一个现实的数据集。我们将生成任何小型企业主都可以识别的数据: 这将创建一个带有2,000份咖啡交易的样本数据集。每行代表一个销售,其中包括订购的内容,何时,花费多少以及购买的详细信息。 #查看您的数据 在分析任何数据之前,您需要了解正在使用的内容。想想这就像在开始烹饪之前先看新食谱: #窥视您的数据 打印(“前5个交易:”) 打印(df.head()) 打印(“我们有什么类型的数据?”) 打印(DF.Schema) 打印(“ \ n多大?我们的数据集?”) print(f“我们有{df.height}交易和{df.width}列”) head() #添加新列 输出(您的确切数字可能会有所不同): 这是发生的事情: with_columns() pl.col() alias() dt

#安装Polars

我们潜入分析数据之前,让我们避免安装步骤。首先,安装极点:

! PIP安装Polars Numpy

现在,让我们导入库和模块:

导入Pol作为PL 导入numpy作为NP 从DateTime Import DateTime,TimeDelta

我们将PL用作Polars的别名。

pl

#创建示例数据

想象一下,您正在管理一家小型咖啡店,说“豆”,并有数百个收据和相关数据进行分析。您想了解哪种饮料卖得最好,哪几天带来的收入最多以及相关问题。是的,让我们开始编码! ☕

为了使本指南实用,让我们为“豆类咖啡店”创建一个现实的数据集。我们将生成任何小型企业主都可以识别的数据:

这将创建一个带有2,000份咖啡交易的样本数据集。每行代表一个销售,其中包括订购的内容,何时,花费多少以及购买的详细信息。

#查看您的数据

在分析任何数据之前,您需要了解正在使用的内容。想想这就像在开始烹饪之前先看新食谱:
#窥视您的数据 打印(“前5个交易:”) 打印(df.head()) 打印(“我们有什么类型的数据?”) 打印(DF.Schema) 打印(“ \ n多大?我们的数据集?”) print(f“我们有{df.height}交易和{df.width}列”)

head()

#添加新列

输出(您的确切数字可能会有所不同):

这是发生的事情: with_columns() pl.col() alias()dt