Openai的O3,Grok 3,DeepSeek R1,Gemini 2.0和Claude 3.7的推理方法有所不同

大型语言模型(LLM)迅速从简单的文本预测系统发展为能够应对复杂挑战的高级推理引擎。这些模型最初是为了预测句子中的下一个单词,现在已促进了求解数学方程,编写功能代码并做出数据驱动的决策。推理技术的开发是关键[…] Openai的O3,Grok 3,DeepSeek R1,Gemini 2.0和Claude 3.7在其推理方法上的不同之处在于unite.ai。

来源:Unite.AI

大型语言模型(LLM)迅速从简单的文本预测系统发展为能够应对复杂挑战的高级推理引擎。这些模型最初是为了预测句子中的下一个单词,现在已促进了求解数学方程,编写功能代码并做出数据驱动的决策。推理技术的开发是这种转换背后的关键驱动力,使AI模型可以以结构化和逻辑方式处理信息。本文探讨了诸如Openai的O3,Grok 3,DeepSeek R1,Google的Gemini 2.0和Claude 3.7十四行诗之类的模型背后的推理技术,突出了它们的优势并比较其性能,成本和可扩展性。

OpenAi的O3 Grok 3 DeepSeek R1 Google的双子座2.0 Claude 3.7十四行诗

大语言模型中的推理技术

要查看这些LLM的原因如何不同,我们首先需要查看这些模型正在使用的不同推理技术。在本节中,我们提出了四种关键推理技术。

  • 推理时间计算缩放此技术通过在响应生成阶段分配额外的计算资源来改善模型的推理,而无需更改模型的核心结构或重新训练。它允许模型通过产生多个潜在答案,评估它们或通过其他步骤来完善其输出来“更加努力地思考”。例如,在解决复杂的数学问题时,模型可能会将其分解为较小的部分,并依次通过每个部分进行工作。这种方法对于需要深入思考的任务特别有用,例如逻辑难题或复杂的编码挑战。尽管它提高了响应的准确性,但该技术还会导致运行时成本较高,响应时间较慢,使其适用于精确度比速度更重要的应用。
  • 推理时间计算缩放 纯强化学习(RL) 纯监督微调(SFT) arc-agi Test Xai的Grok 3