详细内容或原文请订阅后点击阅览
LLM 时代的数据工程
优秀的法学硕士需要优秀的数据。探索塑造人工智能就绪数据工程未来的管道、工具和 RAG 架构
来源:KDnuggets简介
像 GPT-4、Llama 和 Claude 这样的大型语言模型 (LLM) 的兴起改变了人工智能的世界。这些模型可以以令人难以置信的能力编写代码、回答问题和总结文档。对于数据科学家来说,这个新时代确实令人兴奋,但它也提出了一个独特的挑战,即这些强大模型的性能从根本上与支持它们的数据质量相关。
虽然大部分公众讨论都集中在模型本身、人工神经网络和注意力数学上,但 LLM 时代被忽视的英雄是数据工程。旧的数据管理规则没有被取代;他们正在升级。
在本文中,我们将了解数据的角色如何转变、支持训练和推理所需的关键管道,以及定义我们如何构建应用程序的新架构(例如 RAG)。如果您是一位初学者数据科学家,希望了解您的工作如何适应这种新范式,那么本文适合您。
从 BI 转向 AI 就绪数据
传统上,数据工程主要关注商业智能 (BI)。目标是将数据从操作数据库(例如事务记录)移动到数据仓库中。这些数据高度结构化、干净,并组织成行和列,可以回答诸如“上一季度的销售额是多少?”之类的问题。
LLM 时代需要更深入的视野。我们现在需要支持人工智能(AI)。这涉及处理非结构化数据,例如 PDF 中的文本、客户通话的记录以及 GitHub 存储库中的代码。我们的目标不再只是整理这些数据,而是对其进行转换,以便模型能够理解和推理它。
这种转变需要一种新型数据管道,它可以处理不同的数据类型,并为 LLM 生命周期的三个不同阶段做好准备:
