详细内容或原文请订阅后点击阅览
你的下一个“大型”语言模型可能并不大
27M 参数模型在推理任务上的表现刚刚好于 DeepSeek R1、o3-mini 和 Claude 3.7 等巨头您的下一个“大型”语言模型毕竟可能不会很大这篇文章首先出现在《走向数据科学》上。
来源:走向数据科学自人工智能概念诞生以来,研究人员始终对规模抱有信心——通用智能是因规模而诞生的一种新兴属性。如果我们继续添加参数并在庞大的语料库上训练它们,类人推理就会显现出来。
但我们很快发现,即使是这种蛮力方法也有其自身的缺点。有证据表明,我们的大多数前沿模型都严重缺乏训练,并且参数数量过多(Hoffmann 等人,2022)3,这表明我们最终可能将计算花费在错误的途径上。
(霍夫曼等人,2022) 3AI巨头隐藏的缺陷
我们创造了有史以来最强大的人工智能,用一种缓慢、笨拙的外语思考:英语。为了找到问题的解决方案,他们必须通过逐字逐句、循序渐进的过程“大声推理”,同时也为我们提供了许多不相关且管理效率低下的“令牌”。
然后是“越大越好”的行之有效的行业惯例。这导致了具有数十亿参数的模型和具有数万亿代币的训练集的开发。此类模型的庞大规模意味着这些模型并不能真正进行推理。他们只是最好的模仿者。他们没有为特定问题寻找原始的、新颖的解决方案,而是利用之前在训练数据中看到的与当前问题类似的东西来得出解决方案。
最后,也许也是最关键的一点是,这些模型仅限于“一刀切”的思维方法。例如,在处理非常困难的问题时,模型不能选择花费额外的处理时间来处理问题的特别困难的区域。当然,如果模型需要更多时间来解决更困难的问题,它会生成更多的 CoT 代币(Wei 等人,2022)4。但这并不一定复制人类推理,人类推理涉及深度思考阶段,没有任何有形的口头对话。
4 1 2 H L L_final 6 0