LLM优化:Lora和Qlora

大型语言模型的可扩展微调技术LLM优化:Lora和Qlora首先出现在数据科学方面。

来源:走向数据科学

随着Chatgpt的出现,全世界都认识到大型语言模型的强大潜力,这些模型可以理解自然语言并以高度准确地响应用户请求。在LLM的缩写中,第一个字母L代表大型,反映了这些模型通常具有的大量参数。

llm l

现代LLM通常包含十亿个参数。现在,想象一个情况,我们想将LLM适应下游任务。一种常见的方法由微调组成,涉及调整模型在新数据集中的现有权重。但是,此过程非常缓慢且资源密集,尤其是当在硬件有限的本地机器上运行时。

微调
近年来训练的一些最大语言模型的参数数量。
在微调过程中,可以冷冻一些神经网络层以降低训练的复杂性,由于计算成本高,这种方法仍然不足。

为了应对这一挑战,在本文中,我们将探讨Lora(低级适应)的核心原理,这是一种流行的技术,用于减少大型模型进行微调期间的计算负载。作为奖励,我们还将查看Qlora,该Qlora通过合并量化以进一步提高效率来建立在Lora上。

lora(低级适应) Lora

神经网络表示

让我们采用完全连接的神经网络。它的每个层由从下层完全连接到M神经元的N神经元组成。总的来说,有n泼m连接可以表示为具有相应尺寸的矩阵。

n m
一个示例,显示一个完全连接的神经网络层,其权重可以以矩阵形式表示。

乘法技巧

我们可以将其分解为两个较小矩阵 n×m n×k k×m k k << n,m 8192×8192 67m k = 8 8192×8 8×8192 131K
一个大矩阵可以大约表示为两个较小矩阵的乘法。

Lora