大型语言模型的推理能力经常被高估

CSAIL 的新研究强调了 LLM 在熟悉的场景中表现出色,但在新场景中却举步维艰,这让人质疑其真正的推理能力与对记忆的依赖。

来源:MIT新闻 - 人工智能

说到人工智能,表象是具有欺骗性的。大型语言模型 (LLM) 内部运作的神秘性源于其庞大的规模、复杂的训练方法、难以预测的行为和难以捉摸的可解释性。

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员最近通过放大镜研究了 LLM 在不同任务的变化中的表现,揭示了记忆和推理能力之间相互作用的有趣见解。事实证明,他们的推理能力往往被高估了。

该研究将“默认任务”(对模型进行训练和测试的常见任务)与“反事实场景”(偏离默认条件的假设情况)进行了比较——通常可以预期 GPT-4 和 Claude 等模型能够应对这些情况。研究人员通过调整现有任务而不是创建全新的任务,在模型的舒适区之外开发了一些测试。他们使用了各种数据集和基准,专门针对模型功能的不同方面进行量身定制,例如算术、国际象棋、评估代码、回答逻辑问题等。

论文

该团队的研究部分得到了麻省理工学院 - IBM Watson AI 实验室、麻省理工学院智能探索和美国国家科学基金会的支持。 该团队上个月在计算语言学协会 (NAACL) 北美分会上展示了这项工作。