详细内容或原文请订阅后点击阅览
最佳数据混合物的缩放定律
大型基础模型通常对来自多个域的数据进行培训,数据混合物(所使用的每个域的比例)在模型性能中发挥着关键作用。选择这种混合物的标准方法取决于反复试验,这对于大规模预处理而言是不切实际的。我们提出了一种系统的方法,可以使用缩放定律确定任何目标域的最佳数据混合物。我们的方法准确地预测了用D令牌和特定域重量向量h训练的大小N模型的丢失。我们通过…
来源:Apple机器学习研究大型基础模型通常对来自多个域的数据进行培训,数据混合物(所使用的每个域的比例)在模型性能中发挥着关键作用。选择这种混合物的标准方法取决于反复试验,这对于大规模预处理而言是不切实际的。我们提出了一种系统的方法,可以使用缩放定律确定任何目标域的最佳数据混合物。我们的方法准确地预测了用D令牌和特定域重量向量h训练的大小N模型的丢失。我们通过在三个不同的大规模环境中证明它们的预测能力来验证这些缩放定律的普遍性:大语言模型(LLM),天然多模型模型(NMM)和大型视觉模型(LVM)预处理。我们进一步表明,这些缩放定律可以推断到新的数据混合物和跨量表:可以使用一些小规模的训练运行准确地估算它们的参数,并用于估算更大尺度的性能和看不见的域重量。缩放定律允许在给定培训预算(n,d)下为任何目标域的最佳域权重得出最佳域权重,从而提供了昂贵的试用和错误方法的原则替代方案。
n d h n,d