最佳数据混合物的缩放定律

大型基础模型通常对来自多个域的数据进行培训,数据混合物(所使用的每个域的比例)在模型性能中发挥着关键作用。选择这种混合物的标准方法取决于反复试验,这对于大规模预处理而言是不切实际的。我们提出了一种系统的方法,可以使用缩放定律确定任何目标域的最佳数据混合物。我们的方法准确地预测了用D令牌和特定域重量向量h训练的大小N模型的丢失。我们通过…

来源:Apple机器学习研究

大型基础模型通常对来自多个域的数据进行培训,数据混合物(所使用的每个域的比例)在模型性能中发挥着关键作用。选择这种混合物的标准方法取决于反复试验,这对于大规模预处理而言是不切实际的。我们提出了一种系统的方法,可以使用缩放定律确定任何目标域的最佳数据混合物。我们的方法准确地预测了用D令牌和特定域重量向量h训练的大小N模型的丢失。我们通过在三个不同的大规模环境中证明它们的预测能力来验证这些缩放定律的普遍性:大语言模型(LLM),天然多模型模型(NMM)和大型视觉模型(LVM)预处理。我们进一步表明,这些缩放定律可以推断到新的数据混合物和跨量表:可以使用一些小规模的训练运行准确地估算它们的参数,并用于估算更大尺度的性能和看不见的域重量。缩放定律允许在给定培训预算(n,d)下为任何目标域的最佳域权重得出最佳域权重,从而提供了昂贵的试用和错误方法的原则替代方案。

n d h n,d
图1:左:我们得出缩放定律,以预测模型的丢失,这是模型尺寸N的函数,训练令牌D的数量以及用于训练模型的域权重(以每个点的颜色表示)。缩放定律与具有不同域重量的小规模运行拟合,并用于准确预测接受新的,看不见的域重量训练的大型模型。右:我们根据小规模实验(例如,参数以下)找到数据混合物缩放定律,并使用它来预测较大尺度的最佳数据混合物(例如,8B参数)。我们的添加剂和联合法律都会带来相似的性能,并且比其他混合物(在灰色区域)更好。