海量的参数和计算需求阻碍了大型语言模型 (LLM) 的广泛应用。网络剪枝为该问题提供了一个实用的解决方案。然而,现有的 LLM 剪枝工作主要集中于非结构化剪枝或需要剪枝后微调。前者依靠特殊硬件来加速计算,而后者可能需要大量的计算资源。在本文中,我们介绍了一种无需再训练的结构化剪枝方法,称为 SoBP ( S structured O ptimal Brain P runing)。它利用全局一阶信息来选择剪枝结构,然后用局部贪婪方法对其进行细化,最后采用模块重构来减少信息丢失。我们在 8 个不同的数据集上对来自 3 个 LLM 系列的 14 个模型的有效性进行了评估。实验结果表明 SoBP 优于当前最先进的方法。
主要关键词