思考未来:Transformers 的潜在前瞻训练

本文被 ICLR 的潜在与内隐思维研讨会 - 超越 CoT 推理 2026 接受。使用下一个标记预测训练的自回归语言模型通过一次采样一个离散标记来生成文本。尽管具有很强的可扩展性,但这个目标迫使模型在每一步都做出承诺,从而阻止它探索或反思多个看似合理的延续。此外,跨代币的计算分配是统一的;每个令牌都是基于单个前向传递形成的,在困难令牌的情况下可能会限制模型的表达能力......

来源:Apple机器学习研究

本文被 ICLR 的潜在与内隐思维研讨会 - 超越 CoT Reasoning 2026 接受。

使用下一标记预测训练的自回归语言模型通过一次采样一个离散标记来生成文本。尽管具有很强的可扩展性,但这个目标迫使模型在每一步都做出承诺,从而阻止它探索或反思多个看似合理的延续。此外,跨代币的计算分配是统一的;每个令牌都是基于单个前向传递形成的,在困难令牌本质上需要更多计算的情况下,可能会限制模型的表达能力。为了解决这些限制,我们引入了潜在的前瞻,这是一种训练策略,使模型能够在生成之前“思考”:在序列中的选定位置,在提交下一个标记之前,模型在潜在空间中执行多步前瞻。更准确地说,我们不是对未来的令牌进行采样,而是通过递归地将其隐藏状态反馈回 τ 步骤的上下文中,从而利用网络的潜在空间,投入更多的计算来预测该令牌。这会产生 τ 潜在预测,并根据下一个 τ 真实标记进行监督,从而鼓励模型“前瞻”并完善其预测。我们表明,在迷宫求解、数独和 ProsQA 等规划任务中,潜在前瞻大大优于自回归和非自回归基线,在这些任务中,预见性至关重要。

  • ** 在 Apple 期间完成的工作