详细内容或原文请订阅后点击阅览
在固定预算下为法学硕士选择最佳模型大小和数据集大小
使用 Tiny Transformers 进行小规模探索《为法学硕士选择固定预算下的最佳模型大小和数据集大小》一文首先出现在《走向数据科学》上。
来源:走向数据科学简介
语言模型(法学硕士),我们永远受到预算的限制。这样的约束导致了一个基本的权衡:想象一下,如果您固定计算预算,则增加模型大小意味着您必须减少可训练的模型大小,反之亦然。所以你问的问题是:
我们应该为具有更多参数的模型分配更多的资源,还是应该使用更多的数据来训练它?
特别是,法学硕士的表现和效率在很大程度上受到这种权衡的影响。因此,在模型参数数量和使用的代币数量之间找到最佳平衡至关重要。
变压器的总训练计算大致为:C∝N×D,其中
- N 是模型参数的数量。D 是代币的数量。C 是固定计算预算。
很容易看出,对于固定的 C,N 和 D 彼此成反比。
之前的研究(Kaplan et al., 2020;Hoffmann et al., 2022)发现,机器学习模型的训练损失遵循幂律,计算为:L(C)∝C^{−α},对于某些正值 a 和 b,最佳模型大小和数据集大小规模计算为:N_opt∝C^a、D_opt∝C^b。
最佳在本文中,我们将使用微型 Transformer 来探索如何在固定计算 C 下平衡 N 和 D。
实验设置
我们设计了一个最小的变压器模型,我们将其称为“微型变压器”,具有以下可影响模型参数大小的可配置属性:
- 模型维度 (d_model)MLP 维度 (d_mlp)层数 (n_layers)
我们希望在 WikiText-2 数据集长度为 64 的标记化序列上训练不同配置的转换器。
实施和观察
我们使用下面的代码使用不同的 (N,D) 对将模型训练到固定数量的步骤并记录结果。
适用于较小的计算预算