为 LLM 培训准备您自己的数据集的简介

在这篇博文中,我们介绍了如何为 LLM 训练准备自己的数据集。无论您的目标是针对特定任务微调预训练模型,还是继续针对特定领域的应用程序进行预训练,拥有精心策划的数据集对于实现最佳性能都至关重要。

来源:亚马逊云科技 _机器学习

大型语言模型 (LLM) 在广泛的语言任务中表现出了卓越的能力。然而,这些模型的性能在很大程度上受到训练过程中使用的数据的影响。

在这篇博文中,我们介绍了如何为 LLM 训练准备自己的数据集。无论您的目标是微调预训练模型以完成特定任务还是继续为特定领域的应用程序进行预训练,拥有精心策划的数据集对于实现最佳性能至关重要。

数据预处理

文本数据可以来自不同的来源,并以多种格式存在,例如 PDF、HTML、JSON 和 Microsoft Office 文档(如 Word、Excel 和 PowerPoint)。很少有人能够轻松处理并输入 LLM 进行训练的文本数据。因此,LLM 数据准备流程的第一步是从这些不同的来源和格式中提取和整理数据。在此步骤中,您将从多个来源读取数据,使用光学字符识别 (OCR) 等工具提取文本,用于扫描的 PDF、用于 Web 文档的 HTML 解析器以及用于专有格式(如 Microsoft Office 文件)的定制库。非文本元素(如 HTML 标签和非 UTF-8 字符)通常会被删除或规范化。

下一步是过滤低质量或理想的文档。过滤数据的常见模式包括:

  • 根据元数据(如文档名称或 URL)进行过滤。
  • 基于内容的过滤,例如排除任何有毒或有害内容或个人身份信息 (PII)。
  • 正则表达式过滤器用于识别文本中存在的特定字符模式。
  • FineWeb-Edu 分类器 trafilatura pypdf