详细内容或原文请订阅后点击阅览
企业数据质量“谁做什么”指南
一个答案和许多最佳实践,说明大型组织如何为现代数据平台实施数据质量程序企业数据质量“谁做什么”的答案。图片由作者提供。我曾与全球最大公司的数十位企业数据专家交谈过,最常见的数据质量问题之一是“谁做什么?”紧接着是“为什么和怎么做?”这是有原因的。数据质量就像一场接力赛。每条腿的成功——检测、分类、解决和测量——都取决于另一条腿。每次传递接力棒时,失败的几率都会飙升。照片由 Zach Lucero 在 Unsplash 上拍摄实际问题值得实际答案。然而,每个组织围绕数据的组织方式略有不同。我见过拥有 15,000 名员工的组织将所有关键数据的所有权集中起来,而规模只有他们一半的组织则决定完全联合业务领域的数据所有权。出于本文的目的,我将参考最常见的企业架构,即两者的混合。这是大多数数据团队的愿望,它还包含许多跨团队职责,这使得它特别复杂,值得讨论。请记住,以下内容是一个答案,而不是答案本身。本文内容:数据产品的重要性检测分类解决方案测量追求数据质量黄金数据产品的重要性是否追求数据网格
来源:走向数据科学企业数据质量指南的“谁做什么”指南
一个答案和许多最佳实践对于大型组织如何为现代数据平台运行数据质量程序
我已经与世界上最大的公司的数十名企业数据专业人士进行了交谈,最常见的数据质量问题之一是:“谁做什么?”紧随其后的是:“为什么以及如何?”
有一个原因。数据质量就像接力赛。每个腿的成功 - 检测,分流,分辨率和测量 - 取决于另一个。每次通过警棍,失败的机会都飞涨。
Zach Lucero Unplash实际问题应得到实际答案。
但是,每个组织都围绕数据略有不同。我已经看到拥有15,000名员工的组织集中了所有关键数据的所有权,而组织规模一半的组织决定在跨业务领域完全联结数据。
出于本文的目的,我将参考最常见的企业体系结构,这是两者的混合体。这是大多数数据团队的愿望,它还具有许多跨团队职责,使其特别复杂且值得讨论。
请记住,接下来的是答案,而不是答案。
在本文中:
数据产品的重要性
无论是采用数据网格策略还是完全其他内容,现代数据团队的共同认识是需要对齐并投资其最有价值的数据产品。
数据网格 数据产品这是给予数据集,应用程序或服务的指定,其输出对业务特别有价值。这可能是生成机器学习应用程序的收入或从精心策划的数据中获得的一系列见解。
基础和衍生的数据产品