大型语言模型 (LLM) 极大地推进了自然语言处理范式。然而,高计算负荷和巨大的模型大小对在边缘设备上的部署提出了巨大挑战。为此,我们为 LLM 提出了 APTQ(注意感知训练后混合精度量化),它不仅考虑了每层权重的二阶信息,而且首次考虑了注意输出对整个模型的非线性影响。我们利用 Hessian 迹作为混合精度量化的敏感度指标,确保在保留模型性能的情况下进行明智的精度降低。实验表明,APTQ 超越了之前的量化方法,在 C4 数据集中实现了平均 4 位宽度和 5.22 困惑度,几乎相当于全精度。此外,APTQ 在 LLaMa-7B 和 LLaMa-13B 中分别以平均 3.8 的位宽实现了 68.24% 和 70.48% 的最佳零样本准确率,证明了其生成高质量量化 LLM 的有效性。
主要关键词