详细内容或原文请订阅后点击阅览
10 个用于微调 LLM 的开源库
微调大型语言模型 (LLM) 已成为使基础模型适应特定领域任务(例如客户支持、代码生成、法律分析、医疗保健助理和企业副驾驶)的最重要步骤之一。虽然全模型训练仍然昂贵,但开源库现在可以在适度的情况下有效地微调模型......阅读更多»用于微调 LLM 的 10 个开源库首先出现在《大数据分析新闻》上。
来源:大数据分析新闻微调大型语言模型 (LLM) 已成为使基础模型适应特定领域任务(例如客户支持、代码生成、法律分析、医疗保健助理和企业副驾驶)的最重要步骤之一。虽然全模型训练仍然昂贵,但开源库现在可以使用 LoRA、QLoRA、量化和分布式训练等技术在适度的硬件上有效地微调模型。
微调 70B 模型需要 280GB VRAM。加载模型权重(FP16 中为 140GB),添加优化器状态(另外 140GB),考虑梯度和激活,您将看到大多数团队无法访问的硬件。
标准方法无法扩展。在这个数学上训练 Llama 4 Maverick(400B 参数)或 Qwen 3.5 397B 需要花费数十万美元的多节点 GPU 集群。
10 个开源库通过重写训练的方式改变了这一点。定制内核、更智能的内存管理和高效的算法使得在消费类 GPU 上微调前沿模型成为可能。
以下是每个库的作用以及何时使用它:
1. 不懒惰
Unsloth 通过使用 Triton 编写的手工优化的 CUDA 内核,将 VRAM 使用率降低了 70%,并使训练速度加倍。
标准 PyTorch 注意力执行三个独立的操作:计算查询、计算键、计算值。每个操作都会启动一个内核,分配中间张量,并将它们存储在 VRAM 中。 Unsloth 将所有三个融合到一个内核中,该内核永远不会实现这些中间体。
梯度检查点是选择性的。在反向传播期间,您需要前向传播的激活。标准检查点会丢弃所有内容并重新计算。 Unsloth 仅重新计算注意力和层标准化(内存瓶颈)并缓存其他所有内容。
你可以训练什么:
