可扩展的无 MatMul 语言建模 - Yu Zhang__

可扩展的无 MatMul 语言建模 - Yu Zhang

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

可扩展的无 MatMul 语言建模 - Yu Zhang

¥ 1.0

热度

矩阵乘法 (MatMul) 通常占据大型语言模型 (LLM) 总体计算成本的主导地位。随着 LLM 扩展到更大的嵌入维度和上下文长度，这一成本只会增长。在本研究中，我们证明了 MatMul 操作可以完全从 LLM 中消除，同时在十亿参数规模下保持强劲性能。我们的实验表明，我们提出的无 MatMul 模型的性能与最先进的 Transformer 相当，后者在推理过程中需要更大的内存，并且参数规模至少高达 27 亿。我们研究了缩放规律，发现我们的无 MatMul 模型与全精度 Transformer 之间的性能差距随着模型规模的增加而缩小。我们还提供了该模型的 GPU 高效实现，与未优化的基准相比，在训练期间可将内存使用量降低高达 61%。通过在推理过程中使用优化的内核，与未优化的模型相比，我们的模型的内存消耗可减少 10 倍以上。为了准确量化我们架构的效率，我们在 FPGA 上构建了一个定制的硬件解决方案，该解决方案充分利用了 GPU 无法处理的轻量级运算。我们以 13W 的功耗处理了数十亿参数规模的模型，其吞吐量远超人类可读的吞吐量，使 LLM 的效率更接近人脑的水平。这项工作不仅展示了 LLM 在保持高效性能的同时可以精简到何种程度，还指出了未来加速器在处理下一代轻量级 LLM 时应针对哪些类型的运算进行优化。我们的代码实现可在 https://github.com/ridgerchu/matmulfreellm 获取。

添加pdf代下载 VIP点击下载文件

可扩展的无 MatMul 语言建模 - Yu Zhang

主要关键词

模型的参数可读的 LLM 计算成本矩阵乘法定制的研究优化规模先进的模型解决方案效率加速器吞吐量处理 Transformer 提出的 MatMul 训练期轻量级性能充分利用下一代内存 GPU

可扩展的无 MatMul 语言建模 - Yu ZhangPDF文件第1页

可扩展的无 MatMul 语言建模 - Yu ZhangPDF文件第2页

可扩展的无 MatMul 语言建模 - Yu ZhangPDF文件第3页

可扩展的无 MatMul 语言建模 - Yu ZhangPDF文件第4页

可扩展的无 MatMul 语言建模 - Yu ZhangPDF文件第5页

可下载资源数量

已经购买

下载数量：1

可扩展的无 MatMul 语言建模 - Yu Zhang

可扩展的无 MatMul 语言建模 - Yu Zhang

相关文件推荐

语言扩展的室内大满贯（Lexis）

了解通用语言

语言病理学

某些语言听起来比其他语言更美丽？

大语言模型

Emily Zhang

学习 - 秒语言和学习 -

说糖尿病的语言

大语言扩散模型

Kai Zhang

说糖尿病的语言

大语言模型

Zhang，Zhenyu

Lijin Zhang

Yufei Zhang

大语言模型

Yihua Zhang

Edwin Zhang

识别技术语言

Jason Y. Zhang

语言问题

Tianhang Zhang

国家语言安全战略

我们语言中的土木工程

Hongce Zhang

Yu Xiaoniu

大脑与语言

Ruizhe Zhang

Ziyi Zhang

语言服务

XiaoMi-AI