详细内容或原文请订阅后点击阅览
10,000× 更小的模型如何智胜 ChatGPT?
为什么思考更长的时间比变得更大更重要帖子如何让 10,000× 更小的模型智胜 ChatGPT?首先出现在《走向数据科学》上。
来源:走向数据科学1. 简介
过去十年,整个人工智能行业始终相信一个不言而喻的惯例:智能只能大规模出现。我们说服自己,为了让模型真正模仿人类推理,我们需要更大、更深的网络。毫不奇怪,这导致将更多的变压器块堆叠在一起(Vaswani 等人,2017),添加数十亿个参数,并跨数据中心进行训练,这需要兆瓦的电力。
但是,这场制造越来越大模型的竞赛是否让我们看不到一条更有效的道路?如果实际智能与模型的大小无关,而是与你让它推理多长时间有关怎么办?一个微小的网络,如果可以自由地重申自己的解决方案,是否能比一个比自己大数千倍的模型更聪明?
2. 巨人的脆弱
要理解为什么我们需要一种新方法,我们必须首先看看为什么我们当前的推理模型(如 GPT-4、Claude 和 DeepSeek)仍然难以应对复杂的逻辑。
这些模型主要针对下一个令牌预测 (NTP) 目标进行训练。他们通过十亿个参数层处理提示,以预测序列中的下一个标记。即使他们使用“思维链”(CoT)(Wei 等人,2022)来“推理”一个问题,他们也只是在预测一个单词,不幸的是,这并不是在思考。
这种方法有两个缺陷。
首先是它很脆。由于模型会逐个生成答案,因此推理早期阶段的一个错误可能会像滚雪球一样变成完全不同且通常是错误的答案。该模型缺乏在回答之前停止、回溯和纠正其内部逻辑的能力。它必须完全致力于它开始的道路,常常自信地产生幻觉来完成句子。
3. 微型递归模型:用空间换时间
为了了解该网络如何有效地解决问题,让我们浏览一下从输入到解决方案的架构。
