数据没有护城河!

仅当您忽略数据质量时,帖子数据没有护城河!首先出现在数据科学上。

来源:走向数据科学

,数据及其质量的重要性被认为对项目的成功至关重要。有些人甚至可能会说项目曾经有一个失败点:数据!

臭名昭著的“垃圾,垃圾”可能是席卷数据行业的第一个表达(以“数据为新石油”借调)。我们都知道数据结构不佳,清洁和验证,任何分析和潜在应用的结果注定是不准确且危险的。

“垃圾进,垃圾”

因此,多年来,众多研究和研究人员致力于定义数据质量的支柱以及可以使用哪些指标来评估它。

1991年的研究论文确定了20个不同的数据质量维度,它们都与当时的主要重点和数据使用非常一致 - 结构化数据库。快进到2020年,关于数据质量(DDQ)维度的研究论文确定了惊人的数据质量维度(约为65 !!),这不仅反映了如何不断发展数据质量定义,还反映了如何使用数据本身。

1991研究论文 2020,有关数据质量维度(DDQ)尺寸的研究论文
数据质量的尺寸:迈向设计质量数据,1991年王
热情的数据从业者 2021/2022标志着以数据为中心的AI 以数据为中心的AI “垃圾进,垃圾”

那么,为什么我们能再次听到有关数据没有护城河的谣言?

大型语言模型(LLMS)反映人类推理的能力使我们震惊。由于它们经过了巨大的语料库培训,结合了GPU的计算能力,LLM不仅能够生成良好的内容,而且实际上是能够类似于我们的语气和思维方式的内容。因为他们做得非常好,而且往往甚至在最小的环境中,这都导致了许多大胆的结论:

“数据没有护城河。”“我们不再需要专有数据来区分。”“只需使用更好的模型。”