详细内容或原文请订阅后点击阅览
幼苗:将LLM的重量压缩到伪随机发电机的种子
大型语言模型(LLM)已改变了自然语言处理,但是由于其运行时的成本很高,因此在广泛部署方面面临着巨大的挑战。在本文中,我们介绍了一种新型的培训后压缩方法,该方法使用伪随机生成器的种子来编码和压缩模型权重。具体而言,对于每个权重,请在推断过程中为被馈入线性反馈移位寄存器(LFSR)的种子,以有效地生成随机矩阵。然后将该矩阵与压缩系数线性结合,以重建重量块……
来源:Apple机器学习研究大型语言模型(LLM)已改变了自然语言处理,但是由于其运行时的成本很高,因此在广泛部署方面面临着巨大的挑战。在本文中,我们介绍了一种新型的培训后压缩方法,该方法使用伪随机生成器的种子来编码和压缩模型权重。具体而言,对于每个权重,请在推断过程中为被馈入线性反馈移位寄存器(LFSR)的种子,以有效地生成随机矩阵。然后将该矩阵与压缩系数线性结合,以重建重量块。幼苗在推理过程中降低内存访问并利用闲置计算周期,从而通过交易计算以减少内存访问来有效加快内存约束任务。与依赖校准数据的最新方法不同,我们的方法是无数据的,并且可以很好地跨越各种任务。我们使用Lllama3 70b进行的实验特别具有挑战性,在4和3位压缩处显示为零的准确性保留率与最先进的方法相当或更好,同时保持与FP16基准相当的性能。此外,基于FPGA的测试表明,随着模型大小的增加,4位幼苗在FP16 Llama 2/3基线上接近4倍的速度。
†meta