详细内容或原文请订阅后点击阅览
在大约30行Python
想了解ETL的真正工作方式?从这里开始的简单Python管道涵盖了必需品。
来源:KDnuggets您知道当您拥有散布在不同格式和来源的数据时,您需要了解这一切吗?这正是我们今天要解决的问题。让我们构建一个ETL管道,该管道将数据弄乱,并将其转变为实际上有用的东西。
在本文中,我将引导您创建一条处理电子商务交易的管道。没什么好看的,只是完成工作的实用代码。
我们将从CSV文件中获取数据(就像您从电子商务平台下载一样),将其清理并将其存储在适当的数据库中以进行分析。
🔗链接github上的代码
链接到GitHub上的代码什么是提取物,转换,负载(ETL)管道?
每个ETL管道都遵循相同的模式。您可以从某处获取数据,将其清除并使其变得更好(转换),然后将其放置在有用的地方(负载)。
ETL管道|作者的图像|图(draw.io)
该过程始于提取阶段,其中从数据库,API,文件或流平台等各种源系统中检索数据。在此阶段,管道在维护可能在不同的时间表和格式上操作的不同系统的连接,确定并提取相关数据。提取
接下来,变换阶段代表核心处理阶段,其中提取的数据进行清洁,验证和重组。此步骤解决数据质量问题,应用业务规则,执行计算,并将数据转换为所需的格式和结构。常见转换包括数据类型转换,现场映射,聚合以及删除重复或无效记录。变换最后,负载阶段将现在转换的数据传输到目标系统。可以通过完整的负载进行此步骤,其中更换整个数据集或增加了新的数据或更改的数据。加载策略取决于数据量,系统性能需求和业务需求等因素。