LLM优化：Lora和Qlora XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

LLM优化：Lora和Qlora

2025年5月30日 18:44 33 Comments

大型语言模型的可扩展微调技术LLM优化：Lora和Qlora首先出现在数据科学方面。

来源:走向数据科学

随着Chatgpt的出现，全世界都认识到大型语言模型的强大潜力，这些模型可以理解自然语言并以高度准确地响应用户请求。在LLM的缩写中，第一个字母L代表大型，反映了这些模型通常具有的大量参数。

llm l 大

现代LLM通常包含十亿个参数。现在，想象一个情况，我们想将LLM适应下游任务。一种常见的方法由微调组成，涉及调整模型在新数据集中的现有权重。但是，此过程非常缓慢且资源密集，尤其是当在硬件有限的本地机器上运行时。

微调

近年来训练的一些最大语言模型的参数数量。

在微调过程中，可以冷冻一些神经网络层以降低训练的复杂性，由于计算成本高，这种方法仍然不足。

为了应对这一挑战，在本文中，我们将探讨Lora（低级适应）的核心原理，这是一种流行的技术，用于减少大型模型进行微调期间的计算负载。作为奖励，我们还将查看Qlora，该Qlora通过合并量化以进一步提高效率来建立在Lora上。

lora（低级适应） Lora

让我们采用完全连接的神经网络。它的每个层由从下层完全连接到M神经元的N神经元组成。总的来说，有n泼m连接可以表示为具有相应尺寸的矩阵。

n m

一个示例，显示一个完全连接的神经网络层，其权重可以以矩阵形式表示。

我们可以将其分解为两个较小矩阵 n×m n×k k×m k k << n，m 8192×8192 67m k = 8 8192×8 8×8192 131K

一个大矩阵可以大约表示为两个较小矩阵的乘法。

神经元有限的适应数据集具有网络层认识到复杂性训练的计算成本高效率 Lora 矩阵的表示计算负载尺寸的连接的集中的神经网络神经效率矩阵形式流行的 Qlora 提高组成矩阵模型模型的 LLM 微调参数