大语模型的指令遵循修剪

随着大语言模型(LLM)的快速缩放,结构化修剪已成为一种广泛使用的技术,可以从较大的模型中学习高效,较小的模型,与SCRATCH类似尺寸的模型相比,较大的模型具有出色的性能。在本文中,我们超越了为模型确定固定修剪掩模的传统静态修剪方法,并提出了一种动态的结构化修剪方法。在我们的方法中,修剪面罩是输入依赖性的,并且根据用户指令中描述的信息动态调整。我们的方法称为…

来源:Apple机器学习研究

随着大语言模型(LLM)的快速缩放,结构化修剪已成为一种广泛使用的技术,可以从较大的模型中学习高效,较小的模型,与SCRATCH类似尺寸的模型相比,较大的模型具有出色的性能。在本文中,我们超越了为模型确定固定修剪掩模的传统静态修剪方法,并提出了一种动态的结构化修剪方法。在我们的方法中,修剪面罩是输入依赖性的,并且根据用户指令中描述的信息动态调整。我们的方法称为“指导关注修剪”,引入了稀疏掩码预测因子,该预测因子将用户指令作为输入并动态选择给定任务的最相关的模型参数。为了识别和激活有效参数,我们共同优化了稀疏的掩码预测因子和LLM,利用指令跟随数据和预训练的语料库。具体而言,通过选择和修复每个用户指定任务的参数,我们的方法大大降低了重量加载成本并使解码与小规模密度模型一样有效。实验结果证实了我们方法对广泛评估基准的有效性。例如,我们的3B激活模型在数学和编码等域上的绝对边距5-8点改进了5-8点,并与9B模型的性能相媲美。它还可以显着提高9B模型和MOE的推理效率,并具有相似数量的激活参数。

    **在苹果†加利福尼亚大学圣塔芭芭拉分校完成的工作
  • **在Apple
  • †加利福尼亚大学圣塔芭芭拉分校