详细内容或原文请订阅后点击阅览
如何通过加强学习来微调小语言模型
pytorch the Post中的训练GRPO推理模型的视觉游览和从抓斗指南如何微调小语言模型,以增强学习的方式首先出现在数据科学上。
来源:走向数据科学时尚。 DeepSeek-R1,Gemini-2.5-Pro,Openai的O系列模型,人类的Claude,Magistral和Qwen3-每月有一个新的。当您向这些模型提出一个问题时,他们会在产生答案之前进入一系列思想。
思想链我最近问自己一个问题:“嗯……我想知道我是否应该从头开始写一个强化学习循环,该循环教会了这种“思维”行为,就像只有1.35亿个参数。这应该很容易,对吗?
真的 只有1.35亿 参数好吧,不是。
小型模型根本没有大型模型所具有的世界知识。这使得<1b参数模型缺乏“常识”,无法通过复杂的逻辑任务轻松推理。因此,您不能仅仅依靠计算来训练他们进行推理。您需要袖子上的其他技巧。
在本文中,我不仅会涵盖技巧。我将介绍培训推理行为背后的主要思想,分享一些简单的代码段,并使用RL微调小语言模型(SLM)的一些实用技巧。
本文分为5个部分:
- RLVR的介绍(具有可验证的奖励的增强学习)以及为什么它是GRPO算法的Uber Coola Visual概述和剪切的代理PPO损失。
除非另有提到,否则本文中使用的所有图像都是作者制作的插图。
@neural_avb