对大型语言模型的推理能力存在高估

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一项新研究强调了大型语言模型 (LLM) 在熟悉的场景中表现出色,但在新的场景中却表现不佳,这让人质疑它们真正的推理能力与对记忆的依赖。这种见解对于提高这些模型的适应性和扩展其应用领域至关重要。该研究比较了“标准任务”,[…]这篇文章首次出现在人工智能新闻上。

来源:AI新闻

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一项新研究强调了大型语言模型 (LLM) 在熟悉的场景中表现出色,但在新的场景中却表现不佳,这让人质疑它们真正的推理能力与对记忆的依赖。这种见解对于提高这些模型的适应性和扩展其应用领域至关重要。

麻省理工学院的新研究

该研究将“标准任务”(模型训练和测试的常见任务)与“反事实场景”(偏离标准条件的假设情况)进行了比较。研究人员通过调整现有数据而不是创建全新数据,在模型的舒适区之外开发了测试。他们使用了专门针对模型能力的不同方面(例如算术、国际象棋、代码评估、回答逻辑问题等)定制的各种数据集和基准测试。

结果表明,这些模型并不像许多人最初想象的那样稳健。它们的高性能仅限于常见的任务变体,并且在不熟悉的反事实场景中遭受一致且严重的性能下降,这表明缺乏可推广的附加能力。

该模式还适用于其他任务,例如音乐和弦进行、空间推理,甚至棋子的起始位置略有变化的国际象棋问题。虽然人类玩家应该能够确定不断变化的场景中动作的合法性(只要有足够的时间),但模型的表现却很困难,并且表现并不比随机猜测更好,这意味着它们概括到不熟悉的情况的能力有限。