自适应并行推理:高效推理扩展的下一个范式

自适应并行推理概述。如果推理模型可以自行决定何时分解和并行化独立子任务、生成多少个并发线程以及如何根据当前问题协调它们,会怎样?我们对并行推理领域的最新进展进行了详细分析,特别是自适应并行推理。披露:这篇文章部分是景观调查,部分是自适应并行推理的视角。作者之一 (Tony Lian) 共同领导了 ThreadWeaver (Lian et al., 2025),这是下面讨论的方法之一。作者旨在以自己的方式呈现每种方法。 动机 除了数据和参数缩放之外,LLM 推理能力的最新进展很大程度上是由推理时间缩放驱动的(OpenAI 等人,2024 年;DeepSeek-AI 等人,2025 年)。显式输出推理标记(通过中间步骤、回溯和探索)的模型现在主导着数学、编码和代理基准。这些行为允许模型探索替代假设、纠正早期错误并综合结论,而不是致力于单一解决方案(Wen 等人,2025)。问题在于顺序推理与探索量成线性比例。扩展顺序推理标记是有代价的,因为模型存在超出有效上下文限制的风险(Hsieh 等人,2024)。中间探索路径的积累使得模型很难消除干扰因素的歧义

来源:BAIR

自适应并行推理概述。

如果推理模型可以自行决定何时分解和并行化独立子任务、生成多少个并发线程以及如何根据当前问题协调它们,会怎么样?我们详细分析了并行推理领域的最新进展,特别是自适应并行推理。

披露:这篇文章一部分是景观调查,一部分是自适应并行推理的视角。作者之一 (Tony Lian) 共同领导了 ThreadWeaver (Lian et al., 2025),这是下面讨论的方法之一。作者旨在以各自的方式呈现每种方法。

动机

除了数据和参数缩放之外,LLM 推理能力的最新进展很大程度上是由推理时间缩放推动的(OpenAI 等人,2024 年;DeepSeek-AI 等人,2025 年)。显式输出推理标记(通过中间步骤、回溯和探索)的模型现在主导着数学、编码和代理基准。这些行为使模型能够探索替代假设、纠正早期错误并综合结论,而不是致力于单一解决方案(Wen 等人,2025)。

图 1:顺序推理与并行推理

近年来,越来越多的工作在综合环境(例如倒计时游戏(Katz、Kokel 和 Sreedharan,2025))、现实世界的数学问题和一般推理任务中探索了这一想法。

从固定并行到自适应控制

现有方法表明并行推理可以有所帮助,但大多数方法仍然在模型外部决定并行结构,而不是让模型选择它。

简单的分叉和连接。

  • 自洽/多数投票——独立采样多个完整的推理轨迹,从每个轨迹中提取最终答案,并返回最常见的答案(Wang et al., 2023)。
  • Best-of-N (BoN) — 类似于自洽,但使用训练有素的验证者来选择最佳解决方案,而不是使用多数投票(Stiennon 等人,2022)。
  • 最近的变体。