详细内容或原文请订阅后点击阅览
使用列级谱系的变更感知数据验证
数据转换工具(例如DBT)使构建SQL数据管道变得容易且系统性。但是,即使有了增加的结构和明确定义的数据模型,管道仍然可以变得复杂,这使调试问题和验证数据模型的更改变得困难。后变化感知的数据验证具有列级谱系的数据验证首先是朝向数据科学的。
来源:走向数据科学诸如DBT之类的工具使构建SQL数据管道变得容易且系统性。但是,即使有了增加的结构和明确定义的数据模型,管道仍然可以变得复杂,这使调试问题并验证对数据模型的更改变得困难。
数据转换逻辑的复杂性日益复杂引起了以下问题:
- 传统的代码审查过程仅查看代码更改并排除这些更改的数据影响。由代码更改产生的数据影响很难追踪。在以嵌套依赖性为单位的散布的dag中,发现数据影响的发生方式和何处是非常耗时的,或者几乎不可能。
gitlab的DBT DAG(如上图所示)是已经是现金牌的数据项目的完美示例。想象一下,尝试通过整个谱系DAG遵循简单的SQL逻辑更改到列。查看数据模型更新将是一项艰巨的任务。
dbt dag您将如何处理此类评论?
什么是数据验证?
数据验证是指确定数据在现实世界要求方面正确的过程。这意味着确保数据模型中的SQL逻辑可以通过验证数据正确来表现。通常在修改数据模型(例如满足新要求)或作为重构的一部分后进行验证。
独特的评论挑战
数据具有状态,并受到用于生成它的转换的直接影响。这就是为什么审查数据模型更改是一个独特的挑战的原因,因为代码和数据都需要审查。
和 点检查 类型