大语言模型中的超级重量

最近的作品显示出令人惊讶的结果:一小部分大语言模型(LLM)参数异常值对模型的质量不成比例。 LLM包含数十亿个参数,因此这些小部分(例如0.01%)转化为数十万个参数。在这项工作中,我们提出了一个更令人惊讶的发现:修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级,并将零拍的精度降低到猜测。我们提出了一种无数据识别此类参数的方法…

来源:Apple机器学习研究

最近的作品显示出令人惊讶的结果:一小部分大语言模型(LLM)参数异常值对模型的质量不成比例。 LLM包含数十亿个参数,因此这些小部分(例如0.01%)转化为数十万个参数。在这项工作中,我们提出了一个更令人惊讶的发现:修剪较少的单个参数可以破坏LLM生成文本的能力 - 使困惑度增加了3个数量级,并将零拍的精度降低到猜测。我们提出了一种使用单个前向通过模型来识别此类参数的无数据方法,称为“超级权重”。我们还发现,这些超级权重诱导相应的罕见和大型激活异常值,称为超级激活。当以高精度保存时,超级激活可以改善简单的最终量化,以与最先进的方法竞争。对于重量量化,我们同样发现,通过保留超级重量并削减其他重量异常值,圆头量化的量化可以比以前考虑的大得多。为了促进对超级重量的进一步研究,我们为公开可用的LLM提供了超重量坐标的指数。

    **在Apple†Notre Dame University
  • **在Apple
  • †圣母大学