详细内容或原文请订阅后点击阅览
更聪明,不是更难:AI的自我怀疑如何解锁峰值性能
“充满信心地深度思考”,一种在不浪费大量计算的情况下扩展推理任务的更智能方法这篇文章“更聪明,而不是更难:人工智能的自我怀疑如何释放巅峰表现”首先出现在《迈向数据科学》上。
来源:走向数据科学简介
(LLMS)越来越能够解决复杂的推理任务,例如数学奥林匹克问题,科学问答和多步逻辑难题[3,8]。但是他们真的很棒吗?是的,他们是,但是现在,它们在测试时非常昂贵且效率低下[5,6]。为了应对这一挑战,Meta AI的研究人员提出了一种称为“ DeepConf”的解决方案,也称为“深思熟虑” [1]。
奥林匹克问题,科学问答和多步逻辑难题 [3,8] [5,6] meta ai DeepConf 深思熟虑地思考” [1]有一个被称为自洽多数投票的问题。
我确定您想知道这个问题在实践中会是什么样。想象一个由100名学生组成的教室。您给了他们一个复杂的奥林匹克问题,并解决了一个小时。最后,您可以采取所有答案并投票 - 选票最多的答案“获胜”。
这是与LLMS中多数问题的自遇到的方式[2,3]。该模型不仅是1个解决方案,还探索了数百个推理路径(例如,512个不同的分步解决方案),然后选择最频繁的答案。
[2,3]在AIME 2025数学基准测试中,QWEN3-8B的单个通过(称为Pass@1)的精度约为68%;这就像从1个学生那里获得1个答案。但是,如果您每个问题生成512个推理迹线(称为conf@512)并取得多数答案,则准确度会跳至82%[1,4]。
AIME 2025数学基准, Qwen3–8b 68% 512个问题的推理迹线 82% [1,4] 听起来很棒,对吗?捕获的是,这些额外的511痕迹会产生近1亿个额外的代币,而更多的痕迹并不总是有帮助的。当低质量解决方案主导投票时,绩效将保持不变,甚至有时会下降[1,7,8]。换句话说,如果学生们随机猜测,那么班级投票就不会反映房间中最好的思想家[1]。 1亿个代币, [1,7,8] 研究人员对此做了什么:早期修复 [1,11] “可信赖” [1,6] 。 512个问题的推理迹线 82%[1,4]
听起来很棒,对吗?捕获的是,这些额外的511痕迹会产生近1亿个额外的代币,而更多的痕迹并不总是有帮助的。当低质量解决方案主导投票时,绩效将保持不变,甚至有时会下降[1,7,8]。换句话说,如果学生们随机猜测,那么班级投票就不会反映房间中最好的思想家[1]。 1亿个代币,