为什么LLMS过度思考简单的难题,但放弃了硬性

人工智能通过大型语言模型(LLM)及其高级同行,大型推理模型(LRMS),重新定义机器如何处理和生成类似人类的文本。这些模型可以写论文,回答问题,甚至解决数学问题。然而,尽管具有令人印象深刻的能力,但这些模型表现出了好奇的行为:它们经常夸大简单的问题,而[...]为什么llms llms过度思考轻松拼图但放弃了硬性问题,这首先出现在unite.ai上。

来源:Unite.AI

人工智能通过大型语言模型(LLM)及其高级同行,大型推理模型(LRMS),重新定义机器如何处理和生成类似人类的文本。这些模型可以写论文,回答问题,甚至解决数学问题。然而,尽管具有令人印象深刻的能力,但这些模型表现出了奇怪的行为:它们在与复杂的问题时经常过度地解决简单的问题。苹果研究人员最近的一项研究为这一现象提供了宝贵的见解。本文探讨了为什么LLM和LRMS以这种方式行事以及对AI的未来意味着什么。

大推理模型(LRMS) 研究

了解LLM和LRMS

要了解为什么LLM和LRMS以这种方式行事,我们首先需要澄清这些模型是什么。 LLMS(例如GPT-3或BERT)在庞大的文本数据集上进行了训练,以预测序列的下一个单词。这使他们在文本生成,翻译和摘要等任务上都很出色。但是,它们并不是固有的用于推理的设计,它涉及逻辑推论或解决问题。

lrms是一种旨在解决此差距的新型模型。它们结合了诸如《经过思考链》(COT)提示之类的技术,该技术在提供最终答案之前会在其中生成中间推理步骤。例如,在解决数学问题时,LRM可能会像人类一样将其分解为步骤。正如Apple研究所表明的那样,这种方法可以提高复杂任务的性能,但在处理各种复杂性问题时面临挑战。

经营链(COT)

研究

方法 河内塔 检查器跳跃 河流

关于过度思考和放弃的发现

该研究根据问题复杂性确定了三种不同的绩效制度:

  • 在低复杂性水平下,标准LLM的性能通常比LRM更好,因为LRMS倾向于过度思考,从而产生了不必要的额外步骤,而标准LLM则更有效。
  • 为什么发生这种情况