作为数据工程师,您在新公司的第一个任务是什么?使 ETL 管道可测试

用于环境设置、自动化测试和人工智能辅助开发的实用数据工程入职工作流程。作为新公司数据工程师的第一个任务?让 ETL 管道可测试首先出现在《走向数据科学》上。

来源:走向数据科学

加入一家新公司担任数据工程师。您继承了相当多的 ETL 管道,并且您负责维护它们。您认为工作中的挑战是什么?

通常,您可能会遇到以下问题:

  • 上游架构更改:开发团队可以添加或删除字段、更改数据类型或重命名列。当源架构意外更改时,ETL 作业可能会突然失败。更糟糕的是,管道会默默地将损坏的值或空值加载到下游表中。
  • 数据质量问题:有时 ETL 作业不会立即失败,相反,它们会运行并以成功状态完成。但是,加载的数据完全不正确,包含重复或丢失的记录。
  • 缺乏文档:遗留管道可能只有很少的文档,或者现有文档可能已经过时。所以你不确定它们是否符合当前的业务逻辑。
  • 数据量增长和性能峰值:数据量随着业务的增长而增加。针对较小历史数据集进行优化的 ETL 管道在处理大量数据时很容易变得缓慢、停滞或失败。
  • 自动化测试工作流程可以帮助您解决上述问题。为什么?因为结构化的工作流程可以帮助您快速了解 ETL 管道的所有关键方面:业务逻辑、数据转换算法、数据类型以及 ETL 管道需要解决的所有数据问题。测试模式是可重用的——您不必在每次继承不同的 ETL 管道时都设计新的工作流程。

    在今天的文章中,我将重点介绍数据工程中的自动化测试,包括环境配置和实际工作流程。最后,我还将讨论人工智能辅助代码如何加速工作流程并提高生产力。

    让环境发挥作用

    首先,你只需要安装 3 个东西:Docker Desktop、VS Code 和 Dev Containers Extension。

    python --版本
    java -版本
    诗歌 --version
  • 要下载哪个 Docker 映像。