长期的快捷方式:有抱负的数据工程师的自动化工作流

厌倦了重复相同的数据任务?自动化它们。本文向初学者展示了如何建立高效,低维护的数据工程工作流程,从长远来看。

来源:KDnuggets
作者的图像|意识形态图

#简介

作为数据工程师工作的几个小时,您已经淹没了日常任务。 CSV文件需要验证,数据库模式需要更新,正在进行数据质量检查,并且您的利益相关者正在询问他们昨天(以及前一天)要求的相同报告。听起来很熟悉吗?

在本文中,我们将介绍实用的自动化工作流,这些工作流将耗时的手动数据工程任务转换为设置和验证系统。我们不是在谈论需要数月实施的复杂企业解决方案。这些是简单且有用的脚本,您可以立即开始使用。

注意:文章中的代码段显示了如何使用脚本中的类。 GITHUB存储库中提供完整的实现,供您根据需要使用和修改。 🔗github链接到代码
注释 github github链接到代码

#“简单”数据工程任务的隐藏复杂性

在深入解决方案之前,让我们了解为什么看似简单的数据工程任务成为时间下沉。

//数据验证不仅检查数字

//

当您收到一个新数据集时,验证不仅仅是确认数字是数字。您需要检查:

    架构一致性在时间周期间漂移中可能会破坏下游流程的违规规则,而这些规则违反了技术验证案例,这些案例只能出现现实世界中的数据
  • 跨时间范围的架构一致性
  • 可能会破坏下游过程的数据漂移
  • 未被技术验证捕获的商业规则
  • 边缘案例仅表现出现实世界数据
  • //管道监控需要持续的警惕

    数据管道以创造性的方式失败。成功的运行不能保证正确的输出,并且失败的运行并不总是触发明显的警报。手动监视的意思是:

  • 检查多个系统的日志
  • 将失败与外部因素相关联
  • 了解每个故障的下游影响
  • 陷阱: