详细内容或原文请订阅后点击阅览
如何选择小型机型和前沿机型
小语言模型的兴起《如何在小型模型和前沿模型之间进行选择》一文首先出现在《走向数据科学》上。
来源:走向数据科学, 重要时刻
在人工智能领域过去三年的大部分时间里,反射很简单。
你有一个 AI 任务,所以你打电话给 GPT 或 Claude 或 Gemini。但到了 2026 年,这种反射会变得越来越昂贵,而且说实话通常是不必要的。
您在自己的笔记本电脑上运行的模型现在可以处理大量实际工作:分类、提取、摘要、代码完成、文档问答。
这些是这些任务的生产版本,是团队和开发人员发布的。
2025 年末到 2026 年中期之间,有五件事大致在同一时间发生了变化:
其中任何一个都值得一个段落。他们共同将小语言模型 (SLM) 从业余爱好者的好奇心转变为启动项目的明智之举。
我将向您展示发生了什么变化,当规模较小时您会放弃什么,何时 SLM 是正确的选择,以及今晚如何运行 SLM。还有您可以复制的代码。
大家好,我是 Sara Nóbrega,一名人工智能工程师,专注于将机器学习系统部署到生产中。我在这里写了更多关于人工智能工程的内容。
在本文中
1. 为什么选择小模型,以及为什么现在
2. 选择 SLM 时您会放弃什么
3. SLM 何时是正确的选择(以及何时不是)
4. 今晚运行一次 SLM
5. 对于机器学习工程师:微调还是提示?
6. 大局观
首先是一个定义,因为“小”可能会被误解。
我将使用 SLM 来表示大约 1B 到 14B 参数的模型。
对于混合专家模型,我计算活跃参数,因此 Qwen3-30B-A3B(3B 活跃)也计算在内。我所说的“前沿模型”是指 GPT-5.x、Claude Opus 4.x、Gemini 3.x、Grok 4。将边界视为模糊。
当 NVIDIA Research 发布一份报告时,整个关于小语言模型的讨论掀起了热潮。
他们于 2025 年 6 月发表的论文《小语言模型是代理 AI 的未来》(Belcak 等人)认为,大多数代理管道内的狭窄、重复性子任务不需要前沿模型,并估计 40 到 70% 的企业 AI 任务可以在低于 10B 的模型上运行。
