自适应思维：大型语言模型知道何时在潜在空间中思考 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

自适应思维：大型语言模型知道何时在潜在空间中思考

2026年4月29日 00:00 33 Comments

来源:Apple机器学习研究

大型语言模型 (LLM) 测试时计算的最新进展引入了在生成答案之前执行中间思想链 (CoT) 推理（思考）的功能。虽然增加思维预算可以在推理时实现平稳的性能改进，但对于实现计算最优推理，LLM 能力、查询复杂性和最佳预算分配之间的关系仍然知之甚少。为了应对这一挑战，我们利用自我一致性，即多个推理路径之间的一致性，作为思考必要性的代理。我们首先发现，较低的自我一致性表明查询何时需要扩展思维才能得出正确的答案。基于这一见解，我们引入了 Sonata（思维分配的自洽引导适配器），这是一种轻量级方法，可以自适应地分配思维预算以优化性能与效率的权衡。 Sonata 包括一个在校准数据集上离线训练的适配器，用于在查询预填充阶段直接从最后一层隐藏表示预测自一致性。然后，该预测会在思考之前指导动态预算分配。该适配器是通用的，一旦经过训练，就可以在不同的任务之间转移，并且在推理过程中引入的计算开销几乎为零。值得注意的是，Sonata 与现有的 CoT 压缩方法正交，可以在跨查询管理思维预算时进一步提高效率。对多个模型（Qwen3-8B、GPT-OSS-120B、Qwen3-235B-A22B、Intern-S1-mini）和基准（AIME24、AIME25、GSM8K、MATH500、GPQA）的广泛实验表明，Sonata 在保持相同精度的情况下实现了思维令牌的 20% 至 80% 减少，或者在相同令牌成本的情况下精度提高了 5%。

†在 Apple 期间完成的工作‡北卡罗来纳大学教堂山分校

精度引入的适配器高效率 Qwen3 答案 LLM 不同的完成的提高 Sonata 校准数据较低的分配的一致性性能改进自适应平稳的预算分配 CoT 情况数据集通用的推理预算训练的思维查询正确的计算开销思考计算的复杂性现有的动态

自适应思维：大型语言模型知道何时在潜在空间中思考

其他外部链接

Tags

XiaoMi-AI