详细内容或原文请订阅后点击阅览
通过扭曲顺序蒙特卡罗对数学问题进行分步推理
增强大型语言模型 (LLM) 的多步推理能力一直是一个持续的挑战。最近,验证已显示出通过评估生成的输出来提高解决方案一致性的希望。然而,当前的验证方法存在采样效率低下的问题,需要大量样本才能达到令人满意的性能。此外,训练有效的验证者通常依赖于广泛的过程监督,而这需要高昂的成本。在本文中,我们通过引入一种基于 Twisted 的新型验证方法来克服这些限制...
来源:Apple机器学习研究增强大型语言模型 (LLM) 的多步推理能力一直是一个挑战。最近,验证通过评估生成的输出,显示出改善解决方案一致性的前景。然而,当前的验证方法存在采样效率低下的问题,需要大量样本才能达到令人满意的性能。此外,训练有效的验证者通常依赖于广泛的过程监督,而这需要高昂的成本。在本文中,我们通过引入一种基于扭曲顺序蒙特卡洛 (TSMC) 的新型验证方法来解决这些限制。TSMC 依次改进其采样工作,将探索重点放在有希望的候选上,从而更有效地生成高质量的解决方案。我们通过估计部分解决方案的预期未来回报将 TSMC 应用于 LLM。这种方法产生了一个更直接的训练目标,消除了对逐步人工注释的需求。我们通过多个数学基准测试证明了我们方法的优势,并验证了我们的方法和现有验证方法的理论分析。