参数与 FLOP:混合专家语言模型的最佳稀疏度缩放定律
事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加两者,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加……
来源:Apple机器学习研究事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加这两个维度,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加每个示例的 FLOP。我们研究了改变稀疏度(即非活动参数的比例)如何影响模型在预训练和下游小样本评估期间的性能。我们发现,在不同的约束(例如参数大小和总训练计算量)下,存在一个最佳稀疏度水平,可以提高训练效率和模型性能。这些结果更好地理解了稀疏性对 MoE 扩展定律的影响,并补充了该领域的现有工作,为设计更高效的架构提供了见解。