超越单一提取器:重新思考 LLM 预训练的 HTML 到文本提取

构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明一个简单的...

来源:Apple机器学习研究

构建网络规模的 LLM 预训练数据集的首要预处理步骤之一涉及从 HTML 中提取文本。尽管网络内容多种多样,但现有的开源数据集主要对所有网页应用单个固定提取器。在这项工作中,我们调查这种做法是否会导致互联网数据的覆盖和利用不理想。我们首先表明,虽然不同的提取器可能会在标准语言理解任务上产生相似的模型性能,但在固定过滤管道中幸存的页面可能会有很大差异。这表明了一种简单的干预措施:通过对不同的提取器进行联合,我们可以将 DCLM-Baseline 的代币收益率提高高达 71%,同时保持基准性能。我们进一步表明,对于表格和代码块等结构化内容,提取器的选择可以显着影响下游任务性能,在 WikiTQ 上差异高达 10 个百分点 (p.p.),在 WikiTQ 上差异高达 3 个百分点 (p.p.)。关于人类评估。

  • † 华盛顿大学
  • ‡ 斯坦福大学
  • ** 在 Apple 期间完成的工作