再见Nvidia:MatMul-free技术不需要GPU来运行语言模型

加州人用 3 位权重实现了不可能的任务。

来源:安全实验室新闻频道

再见Nvidia:MatMul-free技术不需要GPU来运行语言模型

加州人用 3 位权重实现了不可能的任务。

来自加州大学圣克鲁斯分校、苏州大学和加州大学戴维斯分校的研究人员提出了一种新的语言模型架构,无需矩阵乘法 (MatMul)。这项创新可以显着减少训练和运行模型所需的内存和时间。

引入了新的语言模型架构,

矩阵乘法 (MatMul) 是 Transformer 模型中资源最密集的运算之一。随着语言模型规模的增加,MatMul 的成本也随之增加,这需要更多的计算资源,并且不可避免地会导致延迟。

在他们的工作中,研究人员提出了无 MatMul 模型,该模型显示出现代 Transformer 水平的性能,但执行时所需的内存显着减少。与使用16位权重的传统模型不同,新架构使用取值-1、0和+1的3位权重,这大大降低了计算成本。

使用这样的三元权重(由三个分量组成)可以让你用加法和减法运算来代替MatMul,从而大大简化计算。新架构使用所谓的“BitLinear 层”,它使用三元权重以更低的成本实现类似的结果。

研究人员还建议用无 MatMul 的线性门控循环单元 (MLGRU) 取代传统的令牌混合器。该模型使用简单的三元运算更新隐藏状态,避免昂贵的矩阵乘法。

使用改进的门控线性单元 (GLU) 代替传统的通道混合器,适合三元尺度。这降低了计算复杂性和内存消耗,同时保持了特征集成的效率。

GPU 已经可用