llms不是推理的 - 他们真的很擅长计划

大型语言模型(LLMS),例如OpenAI的O3,Google的Gemini 2.0和DeepSeek的R1,在解决复杂问题,产生类似人类的文本甚至精确编写代码方面表现出了很大的进步。这些先进的LLM通常被称为“推理模型”,因为它们可以分析和解决复杂问题的非凡能力。但是,这些模型实际上是理由的,[…] LLMS并不是推理 - 他们真的很擅长于unite.ai首先出现。

来源:Unite.AI

大型语言模型(LLMS),例如OpenAI的O3,Google的Gemini 2.0和DeepSeek的R1,在解决复杂问题,产生类似人类的文本甚至精确编写代码方面表现出了很大的进步。这些先进的LLM通常被称为“推理模型”,因为它们可以分析和解决复杂问题的非凡能力。但是这些模型实际上是理由的,还是它们只是擅长计划?这种区别是微妙而深刻的,它对我们如何理解LLM的能力和局限性具有重大影响。

OpenAi的O3 Google的双子座2.0 DeepSeek的R1 “推理模型” 原因 计划

要理解这种区别,让我们比较两种情况:

    推理:调查犯罪的侦探必须拼凑出相互冲突的证据,推断哪些是错误的,并根据有限的证据得出结论。此过程涉及推论,矛盾的解决和抽象思维。计划:一个国际象棋参与者计算最佳的动作顺序以检查对手的对手。
  • 推理:调查犯罪的侦探必须拼凑出相互冲突的证据,推断哪些是错误的,并根据有限的证据得出结论。这个过程涉及推论,矛盾解决和抽象思维。
  • 推理
  • 计划:国际象棋棋手计算最佳的动作顺序以检查对手的对手。
  • 计划

    两个过程都涉及多个步骤,但侦探进行了深入的推理,以推断,评估矛盾并将一般原则应用于特定案例。另一方面,国际象棋棋手主要参与计划,选择最佳的动作序列以赢得比赛。正如我们将看到的那样,LLM的功能更像是国际象棋球员,而不是侦探。

    理解差异:推理与计划

    理解差异:推理与计划

    llms如何接近“推理”

    llms如何接近“推理” 经营链(COT) 经营链(COT)