级重量关键词检索结果

大语言模型中的超级重量

The Super Weight in Large Language Models

最近的作品显示出令人惊讶的结果:一小部分大语言模型(LLM)参数异常值对模型的质量不成比例。 LLM包含数十亿个参数,因此这些小部分(例如0.01%)转化为数十万个参数。在这项工作中,我们提出了一个更令人惊讶的发现:修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级,并将零拍的精度降低到猜测。我们提出了一种无数据识别此类参数的方法…