计算最优大型语言模型训练的实证分析

我们问一个问题:“对于给定的计算预算,最佳模型大小和训练令牌数量是多少?”为了回答这个问题,我们训练了各种大小和各种标记数量的模型,并根据经验估计了这种权衡。我们的主要发现是,当前的大型语言模型对于其计算预算来说太大了,并且没有在足够的数据上进行训练。

来源:DeepMind - 新闻与博客

在过去的几年中,语言建模的重点是通过增加基于 Transformer 的模型中的参数数量来提高性能。这种方法在许多自然语言处理任务中取得了令人印象深刻的结果和最先进的性能。

我们也在 DeepMind 上进行了这方面的研究,最近展示了 Gopher,这是一个 2800 亿个参数的模型,在语言建模、阅读理解和问答等一系列任务上都建立了领先的性能。此后,一个更大的模型 Megatron-Turing NLG 已经发布,它有 5300 亿个参数。

由于训练这些大型模型的成本很高,因此估算最佳的训练设置以避免浪费资源至关重要。特别是,Transformer 的训练计算成本由两个因素决定:模型大小和训练 token 的数量。

当前一代大型语言模型已分配了更多的计算资源来增加大型模型的参数数量,并将训练数据大小保持在 3000 亿个标记左右。在这项工作中,我们通过实证研究了在增加计算资源的情况下增加模型大小和训练数据量之间的最佳权衡。具体来说,我们提出一个问题:“对于给定的计算预算,最佳模型大小和训练标记数量是多少?”为了回答这个问题,我们训练了各种大小和各种标记数量的模型,并实证估计了这种权衡。我们的主要发现是,当前的大型语言模型对于其计算预算来说太大了,而且没有在足够的数据上进行训练。事实上,我们发现,对于用于训练 Gopher 的训练 FLOP 数量,最好使用 4 倍小的模型和 4 倍多的数据进行训练。

Gopher Chinchilla,