AI 模型性能:是推理还是简单背诵?

当 ChatGPT 为您的提示提供正确答案时,它是通过请求进行推理还是仅仅记住训练数据中的答案?麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设计了一系列测试,以查看 AI 模型是“思考”还是只是记忆力好。当您提示 AI 模型解决“27+62 等于多少?”之类的数学问题时,它会很快给出正确答案:89。我们如何判断它是理解底层算法还是只是在训练数据中看到了问题?在他们的论文中,研究人员测试了 GPT-4,文章 AI 模型性能:是推理还是简单地背诵?首次出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

当 ChatGPT 为您的提示提供正确答案时,它是通过请求进行推理,还是仅仅从训练数据中记住答案?

当 ChatGPT 为您的提示提供正确答案时,它是通过请求进行推理,还是仅仅从训练数据中记住答案?

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设计了一系列测试,以查看 AI 模型是“思考”还是只是记忆力好。

当您提示 AI 模型解决数学问题(例如“27+62 等于多少?”)时,它会很快给出正确答案:89。我们如何判断它是理解底层算法还是只是在训练数据中看到了问题?

在他们的论文中,研究人员测试了 GPT-4、GPT-3.5 Turbo、Claude 1.3 和 PaLM2,以查看它们是否可以“不仅推广到已知任务的未见实例,还可以推广到新任务”。

他们的论文

他们设计了一系列 11 项任务,这些任务与 LLM 通常表现良好的标准任务略有不同。

如果 LLM 采用通用且可转移的任务解决程序,它们在“反事实任务”中的表现应该同样出色。

如果 LLM“理解”数学,那么它应该为十进制和很少使用的九进制数学问题提供正确答案。

以下是任务和 GPT-4 性能的示例。

GPT-4 在标准默认任务(蓝色)和略微改变的反事实任务(橙色)中的表现。 此处显示了任务示例和正确答案。来源:arXiv
GPT-4 在标准默认任务(蓝色)和略微改变的反事实任务(橙色)中的表现。任务示例和正确答案显示在此处。来源:arXiv

GPT-4 在标准测试(蓝线)中的表现不错,但当任务略有改变时,其数学、逻辑推理、空间推理和其他能力(橙线)会显着下降。

其他模型也表现出类似的退化,GPT-4 脱颖而出。