详细内容或原文请订阅后点击阅览
授权LLM通过擦除思想来深入思考
引言最近的大型语言模型(LLMS)(例如OpenAI的O1/O3,DeepSeek的R1和Anthropic的Claude 3.7)表明,允许该模型在测试时间更深入地思考可以显着增强模型的推理能力。他们深思熟虑能力的核心方法称为“经营链”(COT),该模型迭代地产生了中间体[…]赋予LLMS的邮政通过擦除思想的深入思考,这首先出现在数据科学方面。
来源:走向数据科学最近的大型语言模型(LLMS)(例如OpenAI的O1/O3,DeepSeek的R1和Anthropic的Claude 3.7)表明,允许该模型在测试时间更深入地思考可以显着增强模型的推理能力。他们深思熟虑能力的核心方法称为“经营链”(COT),该模型迭代地生成了中间的推理步骤,并将它们附加到当前上下文中,直到产生最终答案。
大语言模型(LLMS) OpenAI的O1/O3 经营链(COT)然而,随着任务变得越来越复杂,解决方案所需的步骤显着生长。例如,考虑使用COT解决NP硬性问题 - 推理迹线不可避免地会跨越指数步骤,假设固定尺寸变压器是基本模型和P≠NP。 这提出了一个重要的问题:
基于COT的测试时间缩放会撞到硬天花板吗?
不幸的是,可能是。对于更艰巨的任务,将出现各种限制:(1)链条不可避免地超过了模型的上下文窗口,(2)关键信息被掩埋,几乎不可能从许多先前的代币中检索,并且(3)自我注意事项复杂性使产生每个新的标志性昂贵。
(1) (2) (3)在本文中,我们挑战了从理论和实际角度来统治当前LLM架构的传统“仅写” COT推理范式。此外,我们将探索一种根本不同的推理方法,该方法使LLM不仅可以产生思想,还可以消除思想。这种思想擦除能力不仅为绩效和效率带来了重大的实际好处,而且证明从计算理论的角度实现最佳推理效率是基本的。
C. Yang等人,“铅笔:长时间的记忆力” 机器学习 代码