用EORA提升2位LLM精度

一种用于极限LLM压缩的无训练解决方案。邮寄后2位LLM的EORA精度首先出现在数据科学方面。

来源:走向数据科学

是减少大语言模型(LLMS)的记忆足迹的关键技术之一。它通过将模型参数的数据类型从较高精确的格式转换为32位浮点(FP32)或16位浮点(FP16/BF16)到较低精确的整数格式,通常是INT8或INT4。例如,将模型量化为4位意味着每个参数仅使用0.5个字节,而fp32中的4个字节。

训练后量化方法(例如GPTQ和AWQ)可以大大减少大型模型的大小。具有700亿参数的Llama 3之类的模型可以在FP16中占据约140 GB的大约140 GB,但是使用4位量化可以将其降低至大约40 GB,同时仍然在下游任务上保持强劲的性能。

但是,尽管大大减少了这种模型,但此类模型仍然超过大多数消费级GPU的记忆能力,通常提供24 GB至32 GB的VRAM。为了使这些模型真正访问,需要量化到较低的位宽,例如2位。尽管低位量化的最新进展是有希望的,但实现稳定且准确的2位量化仍然是一个重大挑战。

在本文中,我们回顾了一种称为EORA的技术,该技术有助于补偿量化引起的错误。 EORA是一种无训练的方法,这意味着它可以快速有效地应用于任何模型,甚至最大的模型。我们将检查EORA的工作原理,并演示它如何显着提高2位量化模型的性能,从而使它们接近其全精度的准确性,同时较小5.5倍。

eora 免费培训

我们将使用大型模型(例如QWEN3-32B和QWEN2.5-72B)分析实验结果,均使用最先进的量化技术量化为2位,以说明EORA的有效性。

潜入特征空间以寻找适配器

wl l ŵL Lora 补偿

一种直接的方法使用SVD分解压缩错误:

进入

\ [a_l = v_l^t \]

al