详细内容或原文请订阅后点击阅览
索菲亚:加速大型语言模型预训练的突破性方法
斯坦福大学的一个团队开发了 Sophia,这是一种优化 LLM 预训练的新方法。使用这两项关键技术,可以帮助研究人员在一半的时间内培训法学硕士,从而降低成本,使小型组织和学术团体能够负担得起。
来源:QudataSophia:加速大型语言模型预训练的突破性方法
大型语言模型 (LLM),如 ChatGPT,已经获得了极大的普及和媒体关注。然而,它们的开发主要由少数资金雄厚的科技巨头主导,因为预训练这些模型的成本过高,估计至少为 1000 万美元,但可能要高得多。
这个因素限制了小型组织和学术团体获得 LLM 的机会,但斯坦福大学的一组研究人员旨在改变这种状况。在研究生刘宏的带领下,他们开发了一种名为 Sophia 的创新方法,可以将预训练时间缩短一半。
Sophia 优化的关键在于斯坦福团队设计的两种新技术。第一种技术称为曲率估计,涉及提高估计 LLM 参数曲率的效率。为了说明这一点,刘将 LLM 预训练过程比作工厂的装配线。就像工厂经理努力优化将原材料转化为成品所需的步骤一样,LLM 预训练涉及优化数百万或数十亿个参数的进度以实现最终目标。这些参数的曲率代表它们可实现的最大速度,类似于工厂工人的工作量。
虽然估计曲率一直具有挑战性且成本高昂,但斯坦福大学的研究人员找到了一种使其更高效的方法。他们观察到,先前的方法在每个优化步骤中都会更新曲率估计,从而导致潜在的效率低下。在 Sophia 中,他们将曲率估计的频率降低到大约每 10 步一次,从而显著提高了效率。
总之,Sophia 代表了加速大型语言模型预训练、实现这些模型的民主化访问以及可能彻底改变机器学习各个领域的重大进步。