10 个用于微调 LLM 的开源库 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

10 个用于微调 LLM 的开源库

2026年4月4日 09:14 33 Comments

微调大型语言模型 (LLM) 已成为使基础模型适应特定领域任务（例如客户支持、代码生成、法律分析、医疗保健助理和企业副驾驶）的最重要步骤之一。虽然全模型训练仍然昂贵，但开源库现在可以在适度的情况下有效地微调模型......阅读更多»用于微调 LLM 的 10 个开源库首先出现在《大数据分析新闻》上。

来源:大数据分析新闻

微调大型语言模型 (LLM) 已成为使基础模型适应特定领域任务（例如客户支持、代码生成、法律分析、医疗保健助理和企业副驾驶）的最重要步骤之一。虽然全模型训练仍然昂贵，但开源库现在可以使用 LoRA、QLoRA、量化和分布式训练等技术在适度的硬件上有效地微调模型。

微调 70B 模型需要 280GB VRAM。加载模型权重（FP16 中为 140GB），添加优化器状态（另外 140GB），考虑梯度和激活，您将看到大多数团队无法访问的硬件。

标准方法无法扩展。在这个数学上训练 Llama 4 Maverick（400B 参数）或 Qwen 3.5 397B 需要花费数十万美元的多节点 GPU 集群。

10 个开源库通过重写训练的方式改变了这一点。定制内核、更智能的内存管理和高效的算法使得在消费类 GPU 上微调前沿模型成为可能。

以下是每个库的作用以及何时使用它：

1. 不懒惰

Unsloth 通过使用 Triton 编写的手工优化的 CUDA 内核，将 VRAM 使用率降低了 70%，并使训练速度加倍。

标准 PyTorch 注意力执行三个独立的操作：计算查询、计算键、计算值。每个操作都会启动一个内核，分配中间张量，并将它们存储在 VRAM 中。 Unsloth 将所有三个融合到一个内核中，该内核永远不会实现这些中间体。

梯度检查点是选择性的。在反向传播期间，您需要前向传播的激活。标准检查点会丢弃所有内容并重新计算。 Unsloth 仅重新计算注意力和层标准化（内存瓶颈）并缓存其他所有内容。

你可以训练什么：

使用 QLoRA 的单个 24GB RTX 4090 上的 Qwen 3.5 27B

Llama 4 Scout（总共 109B，每个令牌 17B 活动），80GB GPU

具有多模态输入的视觉语言模型

5. TRL

医疗保健选择性独立的 Unsloth 使用模型客户支持使用率选择性的输入计算值梯度反向传播训练中间体 GPU QLoRA 训练的注意力内存适度的标准化内核检查点副驾驶 140GB 输入的标准优化计算模型权重标准方法 VRAM 硬件分布式微调