“超级重量:”即使是单个参数如何确定大语言模型的行为

苹果研究人员的最新论文“大语言模型中的超级重量”表明,LLMS中的一个极为小部分(在某些情况下,单个参数)可能对LLM的整体功能产生不成比例的影响(请参见图1)。这项工作突出了这些“超级权重”及其相应的“超级激活”的关键作用,为LLM体系结构提供了新的见解,并提供了有效模型压缩的途径。本文提供了完整的技术细节和实验结果;在这篇文章中,我们提供了密钥的高级概述…

来源:Apple机器学习研究

Apple 研究人员最近发表的一篇论文“大型语言模型中的超级权重”揭示了 LLM 中极小的参数子集(在某些情况下,单个参数)可能会对 LLM 的整体功能产生不成比例的影响(见图 1)。这项工作强调了这些“超级权重”及其相应的“超级激活”的关键作用,为 LLM 架构和高效模型压缩的途径提供了新的见解。论文提供了完整的技术细节和实验结果;在这篇文章中,我们对主要发现及其影响进行了高度概述。

大型语言模型中的超级权重 图1 纸张

理解和压缩越来越大的模型

虽然 LLM 展示了令人印象深刻的功能,但其庞大的规模(通常包含数十亿甚至数千亿的参数)对在资源有限的硬件(例如移动设备)上进行部署提出了重大挑战。减少此类平台的法学硕士的规模和计算复杂性可以相应减少内存和功耗,使它们能够在本地、私密地且无需互联网连接的情况下运行。然而,了解 LLM 的内部机制至关重要,因为简单的压缩或简化可能会导致模型质量大幅下降。

识别超级权重及其影响

先前的研究 编号坐标Llama 7B2[3968, 7003]Llama 13B2[2231, 2278]2[2231, 6939]Llama 30B3[5633, 12817]3[5633, 17439]10[5633, 14386]Llama2 7B1[2533, 7890]Llama2 13B3[4743, 7678]Mistral-7Bv0.11[2070, 7310]OLMo-1B0724-hf1[1764, 1710]1[1764, 8041]OLMo-7B0724-hf1[269, 7467]2[269, 8275]7[269, 453]24[269, 2300]Phi-3mini-4k-指令2[525, 808]2[1693, 808]2[1113, 808]4[525, 2723]4[1113, 2723]4[1693, 2723]
坐标号 编号 坐标 骆驼 7B2[3968, 7003] 骆驼 7B 2 [3968, 7003] 骆驼 13B2[2231, 2278] 骆驼 13B [2231, 2278] 2[2231, 6939] [2231, 6939] 骆驼 30B3[5633, 12817] 骆驼 30B 3 [5633, 12817] 10 骆驼2 7B