The "Super Weight:" How Even a Single Parameter can Determine a Large Language Model's Behavior
苹果研究人员的最新论文“大语言模型中的超级重量”表明,LLMS中的一个极为小部分(在某些情况下,单个参数)可能对LLM的整体功能产生不成比例的影响(请参见图1)。这项工作突出了这些“超级权重”及其相应的“超级激活”的关键作用,为LLM体系结构提供了新的见解,并提供了有效模型压缩的途径。本文提供了完整的技术细节和实验结果;在这篇文章中,我们提供了密钥的高级概述…
The Super Weight in Large Language Models
最近的作品显示出令人惊讶的结果:一小部分大语言模型(LLM)参数异常值对模型的质量不成比例。 LLM包含数十亿个参数,因此这些小部分(例如0.01%)转化为数十万个参数。在这项工作中,我们提出了一个更令人惊讶的发现:修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级,并将零拍的精度降低到猜测。我们提出了一种无数据识别此类参数的方法…