详细内容或原文请订阅后点击阅览
压缩的 LLM 会忘记知识吗?一项具有实际意义的实验研究
这篇论文被 NeurIPS 2024 的机器学习和压缩研讨会接受。压缩大型语言模型 (LLM) 通常会导致性能下降,尤其是对于知识密集型任务。在这项工作中,我们深入研究了压缩如何破坏 LLM 的固有知识以及可能的补救措施。我们首先对损害的性质提出两种猜想:一是某些知识在 LLM 压缩后被遗忘(或抹去),因此需要压缩模型从具有附加参数的数据中(重新)学习;另一个假设知识是内部的……
来源:Apple机器学习研究这篇论文被 NeurIPS 2024 的机器学习和压缩研讨会接受。
压缩大型语言模型 (LLM) 通常会导致性能下降,尤其是对于知识密集型任务。在这项工作中,我们深入研究了压缩如何损害 LLM 的固有知识以及可能的补救措施。我们首先提出两种关于损害性质的猜想:一种是某些知识在 LLM 压缩后被遗忘(或删除),因此需要压缩模型从具有附加参数的数据中(重新)学习;另一种假设知识在内部被取代,因此只需要“推理重定向”和输入端增强(例如提示),即可恢复与知识相关的性能。然后设计了大量实验来(反)验证这两个猜想。与模型调整相比,我们观察到提示的前景;我们通过引入一种称为推理时间动态提示 (IDP) 的变体进一步释放了提示的潜力,它可以有效地增加提示多样性而不会产生任何推理开销。我们的实验一致表明,与 LoRA 等经典的重新训练替代方案相比,使用 IDP 提示可实现更好或相当的压缩后性能恢复,同时将额外参数大小节省 21 倍并将推理延迟减少 60%。因此,我们的实验强烈支持“知识置换”而不是“知识遗忘”的猜想,并揭示了一种恢复压缩 LLM 性能的新有效机制。我们还可视化并分析了提示和重新训练模型之间的不同注意力和激活模式,表明它们在两种不同的机制下实现了性能恢复。