Why LLMs Overthink Easy Puzzles but Give Up on Hard Ones
人工智能通过大型语言模型(LLM)及其高级同行,大型推理模型(LRMS),重新定义机器如何处理和生成类似人类的文本。这些模型可以写论文,回答问题,甚至解决数学问题。然而,尽管具有令人印象深刻的能力,但这些模型表现出了好奇的行为:它们经常夸大简单的问题,而[...]为什么llms llms过度思考轻松拼图但放弃了硬性问题,这首先出现在unite.ai上。
最近几代的边境语言模型引入了大型推理模型(LRMS),该模型在提供答案之前生成详细的思维过程。尽管这些模型可以提高推理基准的性能,但它们的基本功能,尺度属性和局限性仍然不足以理解。当前的评估主要是关于已建立的数学和编码基准的FO-CUS,强调了最终答案的准确性。但是,这种评估范式通常会遭受数据污染,并且不能为推理迹象提供见解。