详细内容或原文请订阅后点击阅览
长期的快捷方式:有抱负的数据工程师的自动化工作流
厌倦了重复相同的数据任务?自动化它们。本文向初学者展示了如何建立高效,低维护的数据工程工作流程,从长远来看。
来源:KDnuggets#简介
#作为数据工程师工作的几个小时,您已经淹没了日常任务。 CSV文件需要验证,数据库模式需要更新,正在进行数据质量检查,并且您的利益相关者正在询问他们昨天(以及前一天)要求的相同报告。听起来很熟悉吗?
在本文中,我们将介绍实用的自动化工作流,这些工作流将耗时的手动数据工程任务转换为设置和验证系统。我们不是在谈论需要数月实施的复杂企业解决方案。这些是简单且有用的脚本,您可以立即开始使用。
注意:文章中的代码段显示了如何使用脚本中的类。 GITHUB存储库中提供完整的实现,供您根据需要使用和修改。 🔗github链接到代码注释 github github链接到代码
#“简单”数据工程任务的隐藏复杂性
在深入解决方案之前,让我们了解为什么看似简单的数据工程任务成为时间下沉。
//数据验证不仅检查数字
//当您收到一个新数据集时,验证不仅仅是确认数字是数字。您需要检查:
- 架构一致性在时间周期间漂移中可能会破坏下游流程的违规规则,而这些规则违反了技术验证案例,这些案例只能出现现实世界中的数据
//管道监控需要持续的警惕
数据管道以创造性的方式失败。成功的运行不能保证正确的输出,并且失败的运行并不总是触发明显的警报。手动监视的意思是: