如何选择小型机型和前沿机型

小语言模型的兴起《如何在小型模型和前沿模型之间进行选择》一文首先出现在《走向数据科学》上。

来源:走向数据科学

, 重要时刻

在人工智能领域过去三年的大部分时间里,反射很简单。

你有一个 AI 任务,所以你打电话给 GPT 或 Claude 或 Gemini。但到了 2026 年,这种反射会变得越来越昂贵,而且说实话通常是不必要的。

您在自己的笔记本电脑上运行的模型现在可以处理大量实际工作:分类、提取、摘要、代码完成、文档问答。

这些是这些任务的生产版本,是团队和开发人员发布的。

2025 年末到 2026 年中期之间,有五件事大致在同一时间发生了变化:

  • 硬件
  • 开源工具
  • 代币成本
  • 监管
  • 以及拥有自己的工具的文化吸引力。
  • 其中任何一个都值得一个段落。他们共同将小语言模型 (SLM) 从业余爱好者的好奇心转变为启动项目的明智之举。

    我将向您展示发生了什么变化,当规模较小时您会放弃什么,何时 SLM 是正确的选择,以及今晚如何运行 SLM。还有您可以复制的代码。

    大家好,我是 Sara Nóbrega,一名人工智能工程师,专注于将机器学习系统部署到生产中。我在这里写了更多关于人工智能工程的内容。

    在本文中

    1. 为什么选择小模型,以及为什么现在

    2. 选择 SLM 时您会放弃什么

    3. SLM 何时是正确的选择(以及何时不是)

    4. 今晚运行一次 SLM

    5. 对于机器学习工程师:微调还是提示?

    6. 大局观

    首先是一个定义,因为“小”可能会被误解。

    我将使用 SLM 来表示大约 1B 到 14B 参数的模型。

    对于混合专家模型,我计算活跃参数,因此 Qwen3-30B-A3B(3B 活跃)也计算在内。我所说的“前沿模型”是指 GPT-5.x、Claude Opus 4.x、Gemini 3.x、Grok 4。将边界视为模糊。

    当 NVIDIA Research 发布一份报告时,整个关于小语言模型的讨论掀起了热潮。

    他们于 2025 年 6 月发表的论文《小语言模型是代理 AI 的未来》(Belcak 等人)认为,大多数代理管道内的狭窄、重复性子任务不需要前沿模型,并估计 40 到 70% 的企业 AI 任务可以在低于 10B 的模型上运行。

  • ARC-AGI-2