生成逻辑

阿里巴巴的最新模型 QwQ-32B-Preview 因其推理能力而获得了一些令人印象深刻的评价。与 OpenAI 的 GPT-4 o1,1 一样,它的训练强调推理,而不仅仅是再现语言。这似乎是一件值得尝试的事情——或者至少值得尝试一下——所以当我听说它很快就在 Ollama 上可用,而且规模不大时 […]

来源:O'Reilly Media _AI & ML

阿里巴巴的最新模型 QwQ-32B-Preview 因其推理能力而获得了一些令人印象深刻的评价。与 OpenAI 的 GPT-4 o1,1 一样,它的训练强调推理,而不仅仅是重现语言。这似乎值得一试——或者至少值得一试——所以当我听说它很快就在 Ollama 中可用,而且体积不大,可以在一台配置适中的笔记本电脑上运行时,我下载了 QwQ 并试用了它。我还尝试了一些竞争模型:GPT-4 o1 和 Gemma-2-27B。GPT-4 o1 是第一个声称经过专门推理训练的模型。据我所知,Gemma 并没有这样说。

QwQ-32B-Preview 1 Ollama

如何测试推理模型?这并不像核实事实那么简单。我想,“也许我可以要求它证明费马大定理”,但我很快意识到我唯一能评估的回答是“我无法证明这一点”。 (事实上,这三个模型都给了我同样的回答。)我也无法证明费马大定理,我也不声称自己理解数学家接受的任何大量证明。如果 QwQ 断断续续地说出几千个“证明”,我可以相当自信地说它的推理是有缺陷的——只是因为我知道实际的证明要长得多,有一百页密集的数学推理。但这几乎不是一个有效的测试。

费马大定理

学得更快。挖掘得更深。看得更远。

学得更快。挖掘得更深。看得更远。

那费马小定理呢?这要简单得多,但这是一个教科书上的例子,所以无论结果如何,我都不知道 QwQ 推理是否正确,或者它只是设法重复训练集中的某些内容。网上有不少数学教科书,可以公平地假设它们都在训练数据中。

费马小定理 >>> 你能证明如果一个素数的所有数字都是 1, 那么数字的位数一定是素数吗? \(n \) \(n \) \(R_2 = 11 \) \(R_3 = 111 \) \(R_4 = 1111 \) \(\R_n\) \(n \) 2