使用 Python 高效测试 ETL 管道

如何即时检测数据质量问题并确定其原因继续阅读 Towards Data Science »

来源:走向数据科学

用Python进行ETL管道的有效测试

如何立即检测数据质量问题并确定其原因

数字buggu

在当今数据驱动的世界中,组织在很大程度上依靠准确的数据来做出关键的业务决策。作为负责任且值得信赖的数据工程师,确保数据质量至关重要。即使在仪表板上显示不正确的数据的短暂时期也会导致整个组织中错误信息的迅速传播,就像一种高度传染性的病毒通过活生物体传播一样。

但是我们如何防止这种情况?理想情况下,我们将完全避免数据质量问题。但是,可悲的事实是,不可能完全防止它们。尽管如此,我们可以采取两种关键措施来减轻影响。

    是第一个知道何时出现数据质量问题的人会使解决问题所需的时间
  • 是第一个知道何时出现数据质量问题的人
  • 最大程度地减少解决问题所需的时间
  • 在此博客中,我将向您展示如何直接在代码中实现第二点。我将使用Mockaroo生成的数据在Python中创建数据管道,并利用Tableau快速确定任何失败的原因。如果您正在寻找一个替代测试框架,请查看我与Python有关备受期望的介绍的文章。

    对Python的巨大期望的介绍。