10 个用于微调 LLM 的开源库

微调大型语言模型 (LLM) 已成为使基础模型适应特定领域任务(例如客户支持、代码生成、法律分析、医疗保健助理和企业副驾驶)的最重要步骤之一。虽然全模型训练仍然昂贵,但开源库现在可以在适度的情况下有效地微调模型......阅读更多»用于微调 LLM 的 10 个开源库首先出现在《大数据分析新闻》上。

来源:大数据分析新闻

微调大型语言模型 (LLM) 已成为使基础模型适应特定领域任务(例如客户支持、代码生成、法律分析、医疗保健助理和企业副驾驶)的最重要步骤之一。虽然全模型训练仍然昂贵,但开源库现在可以使用 LoRA、QLoRA、量化和分布式训练等技术在适度的硬件上有效地微调模型。

微调 70B 模型需要 280GB VRAM。加载模型权重(FP16 中为 140GB),添加优化器状态(另外 140GB),考虑梯度和激活,您将看到大多数团队无法访问的硬件。

标准方法无法扩展。在这个数学上训练 Llama 4 Maverick(400B 参数)或 Qwen 3.5 397B 需要花费数十万美元的多节点 GPU 集群。

10 个开源库通过重写训练的方式改变了这一点。定制内核、更智能的内存管理和高效的算法使得在消费类 GPU 上微调前沿模型成为可能。

以下是每个库的作用以及何时使用它:

1. 不懒惰

Unsloth 通过使用 Triton 编写的手工优化的 CUDA 内核,将 VRAM 使用率降低了 70%,并使训练速度加倍。

标准 PyTorch 注意力执行三个独立的操作:计算查询、计算键、计算值。每个操作都会启动一个内核,分配中间张量,并将它们存储在 VRAM 中。 Unsloth 将所有三个融合到一个内核中,该内核永远不会实现这些中间体。

梯度检查点是选择性的。在反向传播期间,您需要前向传播的激活。标准检查点会丢弃所有内容并重新计算。 Unsloth 仅重新计算注意力和层标准化(内存瓶颈)并缓存其他所有内容。

你可以训练什么:

  • 使用 QLoRA 的单个 24GB RTX 4090 上的 Qwen 3.5 27B
  • Llama 4 Scout(总共 109B,每个令牌 17B 活动),80GB GPU
  • 具有多模态输入的视觉语言模型
  • 5. TRL