详细内容或原文请订阅后点击阅览
微软的推理框架将 1 位大型语言模型带入本地设备
2024 年 10 月 17 日,微软宣布推出 BitNet.cpp,这是一个旨在运行 1 位量化大型语言模型 (LLM) 的推理框架。BitNet.cpp 是 Gen AI 的一项重大进展,它能够在标准 CPU 上高效部署 1 位 LLM,而无需昂贵的 GPU。这一发展使 LLM 的访问变得民主化,使其可以在各种 […]文章《微软的推理框架将 1 位大型语言模型带到本地设备》首先出现在 Unite.AI 上。
来源:Unite.AI2024年10月17日,微软宣布了Bitnet.cpp,这是一个推理框架,旨在运行1位量化的大型语言模型(LLMS)。 bitnet.cpp是AI代的重大进展,可以在不需要昂贵的GPU上有效地在标准CPU上部署1位LLMS。这一发展使对LLM的访问权限,使其在各种设备上可用,并在设备AI应用程序中提供了新的可能性。
Microsoft宣布的bitnet.cpp了解1位大语言模型
大型语言模型(LLMS)传统上需要大量的计算资源,因为它们用于模型权重的高精度浮点数(通常为FP16或BF16)。这种必需品使部署LLM昂贵且能源密集型。
在其核心上,1位LLMS使用极端量化技术仅使用三个可能的值表示模型权重:-1、0和1,因此术语“ 1.58位”(因为它需要稍微超过一个位才能编码三个状态)。
三元重量系统
概念
bitnet.cpp中的1位量化是三元重量系统。 每个参数只有三个可能的值操作:
- -1(负)0(中性)1(正)
这导致每个参数的存储要求约为1.58位,因此名称B1.58。参数位宽度的这种急剧减少导致记忆使用和计算复杂性的令人印象深刻的降低,因为大多数浮点乘积都用简单的添加和减法代替。
BITNET B1.58数学基础
1位量化涉及通过以下步骤将权重和激活转换为其三元表示形式:
1。重量二进制
重量二进制将权重化涉及将它们集中在平均值(α)周围,从而导致三元表示。转换在数学上表示为:
α
wf =标志(W -α)
wf = wf W f f = 标志(W- 标志 ( - α) )其中:
标志(x) +1 x> 0 X^e = X^