AI 模型性能：是推理还是简单背诵？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

AI 模型性能：是推理还是简单背诵？

2024年7月14日 14:53 33 Comments

当 ChatGPT 为您的提示提供正确答案时，它是通过请求进行推理还是仅仅记住训练数据中的答案？麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设计了一系列测试，以查看 AI 模型是“思考”还是只是记忆力好。当您提示 AI 模型解决“27+62 等于多少？”之类的数学问题时，它会很快给出正确答案：89。我们如何判断它是理解底层算法还是只是在训练数据中看到了问题？在他们的论文中，研究人员测试了 GPT-4，文章 AI 模型性能：是推理还是简单地背诵？首次出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

当 ChatGPT 为您的提示提供正确答案时，它是通过请求进行推理，还是仅仅从训练数据中记住答案？

当 ChatGPT 为您的提示提供正确答案时，它是通过请求进行推理，还是仅仅从训练数据中记住答案？

麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员设计了一系列测试，以查看 AI 模型是“思考”还是只是记忆力好。

当您提示 AI 模型解决数学问题（例如“27+62 等于多少？”）时，它会很快给出正确答案：89。我们如何判断它是理解底层算法还是只是在训练数据中看到了问题？

在他们的论文中，研究人员测试了 GPT-4、GPT-3.5 Turbo、Claude 1.3 和 PaLM2，以查看它们是否可以“不仅推广到已知任务的未见实例，还可以推广到新任务”。

他们的论文

他们设计了一系列 11 项任务，这些任务与 LLM 通常表现良好的标准任务略有不同。

如果 LLM 采用通用且可转移的任务解决程序，它们在“反事实任务”中的表现应该同样出色。

如果 LLM“理解”数学，那么它应该为十进制和很少使用的九进制数学问题提供正确答案。

以下是任务和 GPT-4 性能的示例。

GPT-4 在标准默认任务（蓝色）和略微改变的反事实任务（橙色）中的表现。此处显示了任务示例和正确答案。来源：arXiv

GPT-4 在标准默认任务（蓝色）和略微改变的反事实任务（橙色）中的表现。任务示例和正确答案显示在此处。来源：arXiv

GPT-4 在标准测试（蓝线）中的表现不错，但当任务略有改变时，其数学、逻辑推理、空间推理和其他能力（橙线）会显着下降。

其他模型也表现出类似的退化，GPT-4 脱颖而出。

答案 ChatGPT GPT 任务标准示例推理 LLM 问题正确数据表现训练模型数学

AI 模型性能：是推理还是简单背诵？

其他外部链接

Tags

XiaoMi-AI