甚至 GPT-5 也未能通过人类注意力测试 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

甚至 GPT-5 也未能通过人类注意力测试

2026年6月14日 11:13 33 Comments

一项已有数十年历史的心理学测试暴露了人工智能保持专注能力的一个令人惊讶的弱点。一项经典的心理学测试揭示了当今一些最先进的人工智能系统的一个令人惊讶的弱点，这表明人工智能的注意力可能与人类的注意力有很大不同。 Suketu Patel 领导的研究人员调查了大型语言模型 (LLM) [...]

来源:SciTech日报

一项已有数十年历史的心理学测试暴露了人工智能保持专注能力的一个令人惊讶的弱点。

一项经典的心理学测试揭示了当今一些最先进的人工智能系统的一个令人惊讶的弱点，这表明人工智能注意力的工作方式可能与人类注意力有很大不同。

由 Suketu Patel 领导的研究人员调查了大型语言模型 (LLM)（GPT-5、Claude 和 Gemini 等系统背后的技术）如何处理名为 Stroop 任务的众所周知的认知挑战。研究结果表明，虽然人工智能可以在许多复杂的任务上表现出色，但在长时间面对竞争信息时，它可能很难保持注意力集中。

什么是斯特鲁普任务？

斯特鲁普任务是一项经典的心理学实验，几十年来一直用于研究注意力和心理控制。在测试中，参与者看到以彩色墨水显示的命名颜色的单词，例如“红色”或“蓝色”。

有时单词和墨水颜色匹配。例如，单词“红色”可能以红色墨水出现。有时它们会发生冲突，例如“红色”一词以蓝色墨水出现。

要求参与者识别墨水的颜色，同时忽略单词本身的含义。

虽然这听起来很简单，但却产生了心理冲突。大多数人都非常擅长自动阅读单词，因此抑制这种本能需要心理学家所说的执行控制。这是指大脑专注于目标、抵制干扰和超越自动反应的能力。

当单词和颜色不匹配时，人类通常需要更长的时间来回答，这种现象称为斯特鲁普效应。然而，即使任务变得很长，人们通常也能保持较高的准确性并继续专注于指令。

AI 一开始表现良好

为了了解现代人工智能系统如何应对同样的挑战，研究人员使用颜色词列表测试了几种领先的语言模型。

随着列表变长，性能崩溃

单词任务复杂的本身的测试背后的红色人工智能先进的注意力斯特鲁普领导的工作方式动反应保持参与者研究人员墨水研究结果专注准确性反应的颜色匹配领先的心理学同样的可能颜色系统的经典的不匹配