详细内容或原文请订阅后点击阅览
当您仅使用 1 和 0 构建 LLM 时会发生什么
比当今标准模型效率提高 41 倍、速度提高 9 倍的 LLM 帖子“仅使用 1 和 0 构建 LLM 时会发生什么”首先出现在《走向数据科学》上。
来源:走向数据科学简介
由一条简单但昂贵的规则定义:越大越好。随着大型语言模型 (LLM) 扩展到数万亿个参数,它们显示出几年前还无法想象的推理能力,而且它们还在不断变得更好。
然而,这种增长受到了物理现实的打击。运行这些模型所需的能源和硬件正在变得不可持续,以至于谷歌和 Meta 等公司正在探索核电解决方案,只是为了满足他们未来的能源需求(卫报)。
越大并不总是越好
为了解决这个问题,业界依赖于压缩技术和量化。简而言之,这涉及采用高精度(16 位)训练的模型,并将其权重舍入到较低精度(如 8 位或 4 位)以进行推理(Frantar 等人,2022)。尽管这种方法有效,但它仍然是解决更大问题的权宜之计,因为模型一开始就没有被设计得很小。
但是,如果高性能实际上并不需要高精度怎么办?
在最近一篇题为“1 位 LLM 时代”(Ma et al., 2024)1 的论文中,来自微软的研究人员对 LLM 的构建方式提出了完全不同的观点。他们引入了 BitNet b1.58,这是一种架构,它不只是压缩模型,而是从一开始就限制模型在极其激进的低精度模式下进行训练。它强制模型仅使用三个可能的值进行操作:{−1,0,1}。本文探讨了如何实现如此严格的限制、该方法背后的数学创新,以及该方法是否可以成为现代人工智能中事实上昂贵的浮点运算的可行替代方案。
架构:设计 1 位大脑
1. 实现三元权重
3. 训练悖论:如何区分整数
这就产生了一个悖论:
