详细内容或原文请订阅后点击阅览
数据质量错觉:重新思考 LLM 预训练中基于分类器的质量过滤
大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......
来源:Apple机器学习研究大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量数据集上的语言建模。我们通过 CQF 隐式过滤高质量数据集这一事实来解释这一悖论。我们进一步将使用 CQF 训练的模型的行为与通过随机令牌排列获得的质量不断提高的合成数据训练的模型的行为进行比较,并发现截然不同的趋势。我们的结果挑战了 CQF 捕获了有意义的数据质量概念的观点。
