在固定预算下为法学硕士选择最佳模型大小和数据集大小

使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。

来源:走向数据科学

简介

语言模型(法学硕士),我们永远受到预算的限制。这样的约束导致了一个基本的权衡:想象一下,如果您固定计算预算,则增加模型大小意味着您必须减少可训练的模型大小,反之亦然。所以你问的问题是:

我们应该为具有更多参数的模型分配更多的资源,还是应该使用更多的数据来训练它?

特别是,法学硕士的表现和效率在很大程度上受到这种权衡的影响。因此,在模型参数数量和使用的代币数量之间找到最佳平衡至关重要。

变压器的总训练计算大致为:C∝N×D,其中

    N 是模型参数的数量。D 是代币的数量。C 是固定计算预算。
  • N 是模型参数的数量。
  • D 是标记的数量。
  • C 是固定计算预算。
  • 很容易看出,对于固定的 C,N 和 D 彼此成反比。

    之前的研究(Kaplan et al., 2020;Hoffmann et al., 2022)发现,机器学习模型的训练损失遵循幂律,计算为:L(C)∝C^{−α},对于某些正值 a 和 b,最佳模型大小和数据集大小规模计算为:N_opt∝C^a、D_opt∝C^b。

    最佳

    在本文中,我们将使用微型 Transformer 来探索如何在固定计算 C 下平衡 N 和 D。

    实验设置

    我们设计了一个最小的变压器模型,我们将其称为“微型变压器”,具有以下可影响模型参数大小的可配置属性:

      模型维度 (d_model)MLP 维度 (d_mlp)层数 (n_layers​)
  • 模型尺寸 (d_model)
  • MLP 维度 (d_mlp)
  • 层数 (n_layers​)
  • 我们希望在 WikiText-2 数据集长度为 64 的标记化序列上训练不同配置的转换器。

    实施和观察

    我们使用下面的代码使用不同的 (N,D) 对将模型训练到固定数量的步骤并记录结果。

    适用于较小的计算预算

    “最佳”模型