自适应思维:大型语言模型知道何时在潜在空间中思考

大型语言模型 (LLM) 测试时计算的最新进展引入了在生成答案之前执行中间思想链 (CoT) 推理(思考)的功能。虽然增加思维预算可以在推理时实现平稳的性能改进,但对于实现计算最优推理,LLM 能力、查询复杂性和最佳预算分配之间的关系仍然知之甚少。为了应对这一挑战,我们利用自我一致性,即多个推理路径之间的一致性,作为思考必要性的代理。我们首先确定...

来源:Apple机器学习研究

大型语言模型 (LLM) 测试时计算的最新进展引入了在生成答案之前执行中间思想链 (CoT) 推理(思考)的功能。虽然增加思维预算可以在推理时实现平稳的性能改进,但对于实现计算最优推理,LLM 能力、查询复杂性和最佳预算分配之间的关系仍然知之甚少。为了应对这一挑战,我们利用自我一致性,即多个推理路径之间的一致性,作为思考必要性的代理。我们首先发现,较低的自我一致性表明查询何时需要扩展思维才能得出正确的答案。基于这一见解,我们引入了 Sonata(思维分配的自洽引导适配器),这是一种轻量级方法,可以自适应地分配思维预算以优化性能与效率的权衡。 Sonata 包括一个在校准数据集上离线训练的适配器,用于在查询预填充阶段直接从最后一层隐藏表示预测自一致性。然后,该预测会在思考之前指导动态预算分配。该适配器是通用的,一旦经过训练,就可以在不同的任务之间转移,并且在推理过程中引入的计算开销几乎为零。值得注意的是,Sonata 与现有的 CoT 压缩方法正交,可以在跨查询管理思维预算时进一步提高效率。对多个模型(Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B、Intern-S1-mini)和基准(AIME24、AIME25、GSM8K、MATH500、GPQA)的广泛实验表明,Sonata 在保持相同精度的情况下实现了思维令牌的 20% 至 80% 减少,或者在相同令牌成本的情况下精度提高了 5%。

†在 Apple 期间完成的工作‡北卡罗来纳大学教堂山分校