详细内容或原文请订阅后点击阅览
重新审视大型语言模型训练中下游指标的扩展属性
虽然大型语言模型 (LLM) 的缩放法则传统上关注预训练损失等代理指标,但预测下游任务性能被认为是不可靠的。本文提出了一个直接框架来对培训预算中的基准性能扩展进行建模,从而挑战了这一观点。我们发现,对于固定的令牌与参数比,简单的幂律可以准确地描述多个流行下游任务的日志精度的缩放行为。我们的结果表明,直接方法比之前提出的两阶段程序更好地推断......
来源:Apple机器学习研究虽然大型语言模型 (LLM) 的缩放法则传统上关注预训练损失等代理指标,但预测下游任务性能被认为是不可靠的。本文提出了一个直接框架来对培训预算中的基准性能扩展进行建模,从而挑战了这一观点。我们发现,对于固定的令牌与参数比,简单的幂律可以准确地描述多个流行下游任务的日志精度的缩放行为。我们的结果表明,直接方法比之前提出的两阶段程序更好地推断,后者容易出现复合错误。此外,我们引入了函数形式,可以预测令牌与参数比率的准确性,并考虑重复采样下的推理计算。我们在具有多达 17B 个参数的模型上验证了我们的发现,这些参数在两个数据集混合中的多达 350B 个标记上进行了训练。为了支持可重复性并鼓励未来的研究,我们发布了完整的预训练损失和下游评估结果。
