详细内容或原文请订阅后点击阅览
如何构建AI缩放法律以进行有效的LLM培训和预算最大化
MIT-IBM Watson AI实验室研究人员开发了一份通用指南,用于估计基于同一家庭中较小模型的大型语言模型的性能。
来源:MIT新闻 - 人工智能当研究人员建立大型语言模型(LLM)时,他们的目标是在特定的计算和财务预算下最大化绩效。由于培训模型可以达到数百万美元,因此开发人员必须明智地对构成成本障碍的决定,例如,在承诺模型之前,模型体系结构,优化者和培训数据集。为了预测大型模型预测的质量和准确性,从业者通常会转向缩放定律:使用较小,更便宜的模型来试图近似更大的目标模型的性能。但是,挑战是有成千上万种创建扩展定律的方法。
MIT和MIT-IBM Watson AI实验室研究人员的新作品通过积累并发布了数百种有关培训和绩效的模型和指标的收集,以达到大约一千多个扩展定律。由此,团队开发了一项荟萃分析,并指南,以选择小型模型并估算不同LLM模型家族的缩放定律,以便最佳地应用预算来产生可靠的绩效预测。
“您可能想尝试建立培训过程的数学模型的想法已经有几岁了,但是我认为这里的大多数工作是人们在做的大多数工作就是说:‘我们能说出事后在培训所有这些模型时发生的事后发生了什么事,那么当我们试图培训新的大型模型时,我们会说出如何培训新的大型模型,我们可以如何培训我们的决定?电气工程和计算机科学系副教授以及MIT-IBM Watson AI实验室的首席研究员。
最近在Andreas的国际机器学习会议上发表了研究,以及MIT-IBM Watson AI实验室研究人员Leshem Choshen和IBM Research的Yang Zhang。
推断性能
建造更好的