详细内容或原文请订阅后点击阅览
AI 模型性能:是推理还是简单背诵?
当 ChatGPT 为您的提示提供正确答案时,它是通过请求进行推理还是仅仅记住训练数据中的答案?麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设计了一系列测试,以查看 AI 模型是“思考”还是只是记忆力好。当您提示 AI 模型解决“27+62 等于多少?”之类的数学问题时,它会很快给出正确答案:89。我们如何判断它是理解底层算法还是只是在训练数据中看到了问题?在他们的论文中,研究人员测试了 GPT-4,文章 AI 模型性能:是推理还是简单地背诵?首次出现在 DailyAI 上。
来源:DailyAI | 探索人工智能的世界当 ChatGPT 为您的提示提供正确答案时,它是通过请求进行推理,还是仅仅从训练数据中记住答案?
当 ChatGPT 为您的提示提供正确答案时,它是通过请求进行推理,还是仅仅从训练数据中记住答案?麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设计了一系列测试,以查看 AI 模型是“思考”还是只是记忆力好。
当您提示 AI 模型解决数学问题(例如“27+62 等于多少?”)时,它会很快给出正确答案:89。我们如何判断它是理解底层算法还是只是在训练数据中看到了问题?
在他们的论文中,研究人员测试了 GPT-4、GPT-3.5 Turbo、Claude 1.3 和 PaLM2,以查看它们是否可以“不仅推广到已知任务的未见实例,还可以推广到新任务”。
他们的论文他们设计了一系列 11 项任务,这些任务与 LLM 通常表现良好的标准任务略有不同。
如果 LLM 采用通用且可转移的任务解决程序,它们在“反事实任务”中的表现应该同样出色。
如果 LLM“理解”数学,那么它应该为十进制和很少使用的九进制数学问题提供正确答案。
以下是任务和 GPT-4 性能的示例。
GPT-4 在标准测试(蓝线)中的表现不错,但当任务略有改变时,其数学、逻辑推理、空间推理和其他能力(橙线)会显着下降。
其他模型也表现出类似的退化,GPT-4 脱颖而出。