使用N8N自动化数据质量报告:从CSV到专业分析

从URL分析任何CSV数据集,并使用N8N

来源:KDnuggets
作者的图像| chatgpt

数据质量瓶颈每个数据科学家都知道

您刚刚收到了一个新数据集。在进行分析之前,您需要了解正在使用的内容:有多少丢失值?哪些列有问题?总体数据质量得分是多少?

大多数数据科学家花费15-30分钟来手动探索每个新数据集 - 将其加载到大熊猫中,运行.info(),.describe()和.isnull()和.isnull()。sum(),然后创建可视化以了解缺失的数据模式。当您每天评估多个数据集时,此例程会变得乏味。

.info() .describe() .isnull()。sum()

如果您可以粘贴任何CSV URL并在30秒内获得专业数据质量报告,该怎么办?没有Python环境设置,没有手动编码,工具之间没有切换。

解决方案:4节点N8N工作流

n8n(发音为“ N-8-N”)是一个开源工作流自动化平台,通过视觉,拖放接口连接不同的服务,API和工具。尽管大多数人将工作流程自动化与电子邮件营销或客户支持等业务流程相关联,但N8N也可以协助自动化传统上需要自定义脚本的数据科学任务。

n8n

与编写独立的Python脚本不同,N8N的工作流程是视觉,可重复使用且易于修改的。您可以将数据源连接,执行转换,运行分析并交付结果,而无需在不同的工具或环境之间切换。每个工作流都由代表不同动作的“节点”组成,并将其连接在一起以创建自动化管道。

我们的自动数据质量分析仪由四个连接的节点组成:

    手动触发器 - 单击“执行” http请求时启动工作流程 - 从urlcode节点获取任何CSV文件 - 分析数据并生成质量质量Metricshtml节点 - 创建一个美丽,专业的报告
  • 手动触发 - 单击“执行”
  • 手动触发
  • HTTP请求 - 从URL
  • HTTP请求HTTP请求