使用 Imatrix 和 K-Quantization 进行 GGUF 量化以在您的 CPU 上运行 LLM

为您的 CPU 提供快速准确的 GGUF 模型继续阅读 Towards Data Science »

来源:None

用imatrix和k量化量化的ggguf量化在您的cpu

您的CPU

用dall-e

GGUF是一种二进制文件格式,旨在使用GGML(用于机器学习的基于C的张量库)加载有效存储和快速的大语言模型(LLM)加载。

GGUF封装了一个用于推理的所有必要组件,包括令牌和代码,在一个文件中。它支持各种语言模型的转换,例如Llama 3,Phi和Qwen2。此外,它促进了模型量化,以提高CPU的速度和记忆效率的较低的精确度。

我们经常编写“ GGUF量化”,但GGGUF本身只是文件格式,而不是量化方法。 Llama.cpp中实现了几种量化算法,以减少模型大小并以GGGUF格式序列化所得模型。

在本文中,我们将使用重要性矩阵(Imatrix)和k量化方法来准确地量化LLM并将其转换为GGUF。我使用iMatrix为Gemma 2指令提供GGGUF转换代码。它与Llama.CPP:Qwen2,Llama 3,Phi-3等支持的其他模型相同。我们还将查看如何评估所得模型的量化和推荐吞吐量的准确性。