重新审视大型语言模型训练中下游指标的扩展属性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

重新审视大型语言模型训练中下游指标的扩展属性

2026年3月26日 00:00 33 Comments

来源:Apple机器学习研究

虽然大型语言模型 (LLM) 的缩放法则传统上关注预训练损失等代理指标，但预测下游任务性能被认为是不可靠的。本文提出了一个直接框架来对培训预算中的基准性能扩展进行建模，从而挑战了这一观点。我们发现，对于固定的令牌与参数比，简单的幂律可以准确地描述多个流行下游任务的日志精度的缩放行为。我们的结果表明，直接方法比之前提出的两阶段程序更好地推断，后者容易出现复合错误。此外，我们引入了函数形式，可以预测令牌与参数比率的准确性，并考虑重复采样下的推理计算。我们在具有多达 17B 个参数的模型上验证了我们的发现，这些参数在两个数据集混合中的多达 350B 个标记上进行了训练。为了支持可重复性并鼓励未来的研究，我们发布了完整的预训练损失和下游评估结果。

** 在 Apple 期间完成的工作

不可靠的数据集固定的提出的参数的可重复性可靠的损失未来的两阶段预测采样任务性能缩放 LLM 多达完成的模型令牌比率的下游准确性基准训练完整的进行参数日志计算简单的重复性

重新审视大型语言模型训练中下游指标的扩展属性

其他外部链接

Tags

XiaoMi-AI