你的人工智能问题是一个数据问题

前一周,我坐在满是数据工程师的房间里,他们担心人工智能会导致他们失业,就像半个世纪前底特律的汽车制造业被颠覆一样。全是人工智能。一直以来。这就是技术专业人士正在谈论的内容。数据科学家、数据工程师和数据架构师 [...]

来源:O'Reilly Media _AI & ML

前一周,我坐在满是数据工程师的房间里,他们担心人工智能会导致他们失业,就像半个世纪前底特律的汽车制造业被颠覆一样。

所有人工智能。一直以来。这就是技术专业人士正在谈论的内容。

数据科学家、数据工程师和数据架构师对此发出警报是正确的。在管道开始时使用人工智能来解决和自动化数据问题是数据代理工程的一个明显用例。将人工智能转向自动化。

这对拥有架构和可交付成果基础管道的数据工程职位构成了威胁。这是我们无法再回避的讨论。在各个领域,人工智能正在悄然出现,带来新的风险和更大的变化。

在那里引入人工智能可能会很危险,而这本身就是一场对话。你会听到有关人工智能计划失败的恐怖故事,以及失败的原因。

代理框架因检索层不可信而停滞。 RAG 管道在演示中工作,但在生产中崩溃。上游本来应该解决的问题,通过下游治理工具的建设来解决。

谈话又回到了一件事。数据还没有准备好。

不要忽视数据层

Cloudera 和哈佛商业评论于 2026 年 3 月进行的一项研究发现,只有 7% 的企业认为他们的数据完全适合人工智能,超过四分之一的企业表示根本没有准备好。另一个数据点:在 Informatica 的 2025 年 CDO Insights 调查中,43% 的组织将数据质量和准备情况视为人工智能成功的最大障碍。不是模型性能。不是工具。数据。

那么为什么这种情况不断发生呢?

组织将人工智能视为一项技术采购决策。购买平台、雇用工程师、部署模型。但这些举措背后的基础——数据层——却缺失了。

数据不受监管。血统没有被追踪。该管道是为了报告而构建的,而不是为了模型消耗而构建的。