获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Scaling Laws for Optimal Data Mixtures
大型基础模型通常对来自多个域的数据进行培训,数据混合物(所使用的每个域的比例)在模型性能中发挥着关键作用。选择这种混合物的标准方法取决于反复试验,这对于大规模预处理而言是不切实际的。我们提出了一种系统的方法,可以使用缩放定律确定任何目标域的最佳数据混合物。我们的方法准确地预测了用D令牌和特定域重量向量h训练的大小N模型的丢失。我们通过…