任务性能关键词检索结果

数据质量错觉:重新思考 LLM 预训练中基于分类器的质量过滤

The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining

大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......