CoT 推理的潜力:仔细研究跟踪动态

思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此……

来源:Apple机器学习研究

思想链 (CoT) 提示是一种事实上的标准技术,可从大型语言模型 (LLM) 中引出类似推理的响应,使他们能够在给出最终答案之前阐明各个步骤。虽然与类人推理的相似性是不可否认的,但支撑 CoT 推理成功的驱动力仍然很大程度上不清楚。在这项工作中,我们对源自竞赛级数学问题的 CoT 痕迹进行了深入分析,目的是更好地理解 CoT 如何以及哪些部分实际上对最终答案做出了贡献。为此,我们引入了潜力的概念,量化 CoT 的给定部分增加正确完成的可能性的程度。通过潜力的镜头检查推理痕迹后,我们发现了令人惊讶的模式,包括(1)其通常很强的非单调性(由于推理切线),(2)非常尖锐但有时难以解释峰值(推理洞察和跳跃)以及(3)有时幸运的猜测,模型在之前没有提供任何相关理由的情况下得出正确的答案。虽然潜力的某些行为很容易解释并且符合人类直觉(例如见解和切线),但从人类的角度来看,其他行为仍然难以理解。为了进一步量化法学硕士对推理见解的依赖,我们研究了 CoT 可转移性的概念,其中我们衡量了较弱模型在来自另一个更强模型的部分 CoT 下的潜力。事实上,与我们之前的结果一致,我们发现只要 20% 的部分 CoT 就可以“解锁”较弱模型在以前无法解决的问题上的性能,这突显了支撑 CoT 的大部分机制是可转移的。