1935 年的测试揭示了我们认为 GPT-4o 和 Claude 中纯粹人类的弱点 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

1935 年的测试揭示了我们认为 GPT-4o 和 Claude 中纯粹人类的弱点

2026年6月25日 13:32 33 Comments

聊天机器人撰写论文和代码。但命名字母的颜色却变得更加困难......

来源:安全实验室新闻频道

1935 年的测试揭示了我们认为 GPT-4o 和 Claude 中纯粹人类的弱点

聊天机器人撰写论文和代码。但命名字母的颜色却变得更加困难......

现代聊天机器人可以轻松编写代码、收集文本并维持长时间对话，但常见的注意力心理测试显示了它们的弱点。 GPT-4o 和 Claude 3.5 Sonnet 几乎没有错误地完成了简短的任务，但在长列表上，他们突然感到困惑，并开始根据更熟悉但不正确的模式进行响应。

验证与支持现代大型语言模型的机制有关。继 2017 年发表一篇关于神经网络注意力的论文之后，Transformers 迅速占据了人工智能开发的中心舞台。 Claude、Gemini、ChatGPT 等系统都运行在该架构上，分析请求、选择重要片段并分段构建响应。

在大型语言模型中，文本首先被分解为标记。标记可以是单词、单词的一部分、标点符号或其他小元素。接下来，模型评估这些片段之间的联系：哪个单词有助于理解相邻的单词，请求的哪一部分影响答案的延续，应该更强烈地考虑哪个元素。这种机制称为自注意力。在有关机器学习的俄语文本中，也发现了“自我注意机制”的表述。

这个名字很容易混淆，因为这不是人类注意力的工作原理。大脑并不是简单地从一般信息流中选择重要信号。有几个系统负责集中注意力。一是支持采取行动的准备。另一个可以帮助您选择有意义的图像、声音、气味和感觉。第三个方法可以解决竞争信号之间的冲突，并在习惯性反应干扰正确行动时帮助维持目标。

4o 响应单词支持机制人工智能选择字母的注意力相邻的代码信号 Claude 文本学习的正确的点符号模型的机器学习不正确的片段不正确 GPT 根据神经网络聊天机器人心理测试信息流工作原理