开发人员应该使用 DuckDB 的三个理由

开发人员应该使用 DuckDB 的三个理由软件开发人员如何使用 DuckDB 进行数据分析软件开发人员必须身兼数职:从编写代码、设计系统到分析事件期间的数据转储。我们的大多数工具都针对这项任务进行了优化——对于编写代码,我们有强大的 IDE,对于设计系统,我们有功能丰富的图表工具。对于数据分析,软件开发人员是否拥有最好的工具?在本文中,我列出了三个主要原因,说明为什么 DuckDB(一种开源分析数据库)是软件开发人员必备的工具。来源:Unsplash原因 1:使用普遍理解的 SQL想象一下,你是一家食品配送公司的软件开发人员。您收到一封电子邮件,说与付款相关的客户投诉突然增加。该电子邮件包含一个这样的 CSV 文件,其中有一些按投诉性质分类的订单。作为一名压力巨大的开发人员,您可能倾向于在 StackOverflow 上快速查找如何分析 CSV 文件,它告诉我们使用 awk。awk -F',' \ 'NR > 1 {count[$6]++} END \ {for (value in count) print value, count[value]}' \ datagenerator/adjusted_transactions.csv | sortCUSTOMER_SUPPORT_REFUND 8494INSUFFICIENT_FUNDS 1232MANUAL_ADJUSTMENT 162REVERSED_PAYMENT 62815很自然地会问一个后续问题:我们在每个订单中看到这些错误的频率是多少?使用 awk 等工具回答迭代问题可能具有挑战性,因为它的语法不熟悉。此外,如果数据在另一个

来源:走向数据科学

开发人员应该使用 DuckDB 的三个理由

开发人员应该使用 DuckDB 的三个理由

软件开发人员如何使用 DuckDB 进行数据分析

软件开发人员必须身兼数职:从编写代码、设计系统到分析事件期间的数据转储。我们的大多数工具都针对任务进行了优化——对于编写代码,我们有强大的 IDE,对于设计系统,我们有功能丰富的图表工具。

对于数据分析,软件开发人员是否拥有最适合这项工作的工具?在本文中,我列出了三个主要原因,说明为什么开源分析数据库 DuckDB 是软件开发人员的必备工具。

对于数据分析,软件开发人员是否拥有最适合这项工作的工具? DuckDB
来源:Unsplash
来源:Unsplash
Unsplash

原因 #1:使用普遍理解的 SQL

想象一下,您是一家食品配送公司的软件开发人员。您收到一封电子邮件,告知您与付款相关的客户投诉突然增加。该电子邮件包含一个这样的 CSV 文件,其中包含一些按投诉性质分类的订单。作为压力之下的开发人员,您可能倾向于在 StackOverflow 上快速查找如何分析 CSV 文件,它告诉我们使用 awk。

像这样的 CSV 文件 很快 awk
awk -F',' \ 'NR > 1 {count[$6]++} END \ {for (value in count) print value, count[value]}' \ datagenerator/adjusted_transactions.csv | sortCUSTOMER_SUPPORT_REFUND 8494INSUFFICIENT_FUNDS 1232MANUAL_ADJUSTMENT 162REVERSED_PAYMENT 62815
awk -F',' \ 'NR > 1 {count[$6]++} END \ {for (value in count) print value, count[value]}' \ datagenerator/adjusted_transactions.csv | sortCUSTOMER_SUPPORT_REFUND 8494INSUFFICIENT_FUNDS 1232MANUAL_ADJUSTMENT 162REVERSED_PAYMENT 62815 awk jq DuckDB 通过为 多种文件类型 多种文件类型 提供统一的 SQL 接口,解决了需要针对特定​​数据格式使用特定工具的问题。 部署最多的数据库 MongoDB Spark AWS Athena duckdb

原因 #2:支持多种数据库和文件类型

用户 订单 在此存储库中