智能扩展:通过小型模型初始化加速大型语言模型预训练

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。语言模型的预训练阶段通常从随机初始化的参数开始。根据当前扩展模型的趋势,训练它们的大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们通常无法达到大型模型的准确性。在本文中,我们探索了一个将这两种不同机制联系起来的有趣想法:我们能否开发一种使用……初始化大型语言模型的方法

来源:Apple机器学习研究

这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。

语言模型的预训练阶段通常从随机初始化的参数开始。根据当前模型扩展的趋势,训练其大量参数可能非常缓慢且成本高昂。相比之下,小型语言模型的训练成本较低,但它们通常无法达到大型模型的准确性。在本文中,我们探索了一个将这两种不同方案联系起来的有趣想法:我们能否开发一种方法来使用较小的预训练模型来初始化大型语言模型?这种初始化会在训练时间和最终准确性方面带来任何好处吗?在本文中,我们介绍了 HyperCloning,这是一种可以将预训练语言模型的参数扩展为具有增加隐藏维度的较大模型的参数的方法。我们的方法确保较大的模型保留较小模型的功能。因此,较大的模型在训练开始之前就已经继承了较小模型的预测能力和准确性。我们证明,训练这样的初始化模型可以显著节省预训练大型语言模型所需的 GPU 小时数。