详细内容或原文请订阅后点击阅览
7 DuckDB SQL查询,可以节省您的小时大熊猫工作
请参阅DuckDB在笔记本中的所有工作中如何胜过现实世界中的熊猫,例如过滤,同类分析和收入建模。
来源:KDnuggetspandas图书馆是增长最快的社区之一。这种受欢迎程度为替代方案(例如Polars)打开了大门。在本文中,我们将探索一种这样的选择DuckDB。
PORARSDuckDB是一个SQL数据库,您可以在笔记本中直接运行。不需要设置,也不需要服务器。它易于安装,可以并行与大熊猫一起使用。
与其他SQL数据库不同,您无需配置服务器。安装后,它只是与您的笔记本电脑一起使用。这意味着没有本地设置头痛,您正在立即编写代码。与大熊猫相比,DuckDB手柄的过滤,连接和使用干净的SQL语法聚集,并且在大型数据集上的性能明显更好。
加入 聚合对术语来说已经足够了,让我们开始吧!
数据项目 - Uber业务建模
我们将将其与Jupyter笔记本电脑一起使用,将其与Python结合起来进行数据分析。为了使事情变得更加令人兴奋,我们将在现实生活中工作。让我们开始吧!
这是我们将在本文中使用的数据项目的链接。这是Uber的数据项目,称为合作伙伴的业务建模。
这是链接Uber在招聘过程中使用了此数据项目作为数据科学职位,您将被要求分析两种不同情况的数据。
- 方案1:比较旨在在忙碌的一天中使更多驱动程序在线的两个奖金计划的成本。Scenario2:计算和比较传统出租车驾驶员与与Uber合作并购买汽车的一个传统出租车驾驶员的年净收入。
加载数据集
让我们先加载数据框。将需要此步骤;因此,我们将在以下各节中向DuckDB注册此数据集。
将大熊猫作为pd导入 df = pd.read_csv(“ dataset_2.csv”)