详细内容或原文请订阅后点击阅览
语言模型在预测数据匹配目标任务时会有所改善
每个数据选择方法本质上都有一个目标。实际上,这些目标通常通过基准驱动的迭代隐式出现:研究人员制定了选择策略,火车模型,测量基准的性能,然后相应地完善。这提出了一个自然的问题:当我们明确地进行优化时会发生什么?为了探讨这一点,我们提出了以基准为目标的排名(BETR),这是一种基于与基准培训示例的相似性选择预训练文档的简单方法。 betr嵌入基准示例和在共享空间中的预处理文件样本,分数……
来源:Apple机器学习研究每个数据选择方法本质上都有一个目标。实际上,这些目标通常通过基准驱动的迭代隐式出现:研究人员制定了选择策略,火车模型,测量基准的性能,然后相应地完善。这提出了一个自然的问题:当我们明确地进行优化时会发生什么?为了探讨这一点,我们提出了以基准为目标的排名(BETR),这是一种基于与基准培训示例的相似性选择预训练文档的简单方法。 BETR嵌入了基准示例和在共享空间中嵌入预处理的文档样本,通过与基准相似的相似性来评分该样本,然后训练一个轻量级的分类器,以预测完整语料库的这些分数。我们通过训练超过500个模型的数据选择方法来比较数据选择方法,这些模型超过500型模型,将10⁹2222的插图和拟合量表法律与他们拟合。从中,我们发现,只需将预处理数据与BETR对准基准测试,可以在DCLM-Baseline上获得2.1倍的计算乘数(未经过滤的数据4.7倍),并在所有尺度上提高10个任务中的9个任务的性能。 BETR也很好地概括了:当针对与我们的评估套件的各种基准分配不相交时,它仍然与基准相匹配或胜过基线。我们的缩放分析进一步揭示了一个清晰的趋势:较大的模型需要较少的攻击性过滤。 总体而言,我们的发现表明,直接匹配预处理数据与目标任务的匹配精确地塑造了模型功能,并强调了最佳选择策略必须适应模型量表。
- †华盛顿大学‡斯坦福大学拟人**在Apple