思维的幻想:通过问题复杂性的角度了解推理模型的优势和局限性

最近几代的边境语言模型引入了大型推理模型(LRMS),该模型在提供答案之前生成详细的思维过程。尽管这些模型可以提高推理基准的性能,但它们的基本功能,尺度属性和局限性仍然不足以理解。当前的评估主要是关于已建立的数学和编码基准的FO-CUS,强调了最终答案的准确性。但是,这种评估范式通常会遭受数据污染,并且不能为推理迹象提供见解。

来源:Apple机器学习研究

最近几代的边境语言模型引入了大型推理模型(LRMS),该模型在提供答案之前生成详细的思维过程。尽管这些模型可以提高推理基准的性能,但它们的基本功能,尺度属性和局限性仍然不足以理解。当前的评估主要是关于已建立的数学和编码基准的FO-CUS,强调了最终答案的准确性。但是,这种评估范式通常会遭受数据污染,并且不能为推理迹象的结构和质量提供见解。在这项工作中,我们在可控的拼图环境的帮助下系统地研究了这些套件,这些环境可以精确地操纵组合复杂性,同时保持一致的逻辑结构。该设置不仅可以分析最终答案,还可以使内部推理痕迹的痕迹进行分析,从而提供了有关LRMS“思考”的见解。通过在各种难题之间进行广泛的实验,我们表明Frontier lrmsface超出了某些复杂性的完全准确性崩溃。此外,他们表现出违反直觉的缩放限制:他们的推理工作随着问题的复杂性而增加,尽管预算有足够的预算,但thendeclines仍会增加。通过将LRM与其标准LLMCOUNTERPART在同等的推理计算下进行比较,我们确定了三个性能制度:(1)低复杂性任务,标准模型令人惊讶地超越了LRM,(2)中等复杂性的LRMS(2)LRMS中的其他思维表现出优势,以及(3)高级任务的高级任务崩溃。我们发现LRM在精确计算方面存在局限性:它们无法使用明确的算法和跨难题不一致的原因。 Wealso更深入地研究了推理轨迹,研究了探索解决方案的模式,并分析了模型的计算行为,阐明了它们的优势,局限性和U