详细内容或原文请订阅后点击阅览
AI 聊天机器人显示出早期痴呆等认知障碍迹象
最近的研究表明,流行的人工智能聊天机器人通常被认为是先进和有能力的,当使用旨在检测人类早期痴呆症的工具进行测试时,它们显示出轻度认知障碍的迹象。这项研究发表在《英国医学杂志》圣诞版上,提出了一个问题:人工智能是否会在临床环境中完全取代人类医生。过去 […] 人工智能聊天机器人显示出早期痴呆等认知障碍迹象,该文章首次出现在 Knowridge Science Report 上。
来源:Knowridge科学报告最近的研究表明,流行的人工智能聊天机器人通常被认为是先进和有能力的,但在使用旨在检测人类早期痴呆症的工具进行测试时,它们显示出轻度认知障碍的迹象。
这项研究发表在 BMJ 圣诞刊上,提出了人工智能是否会在临床环境中完全取代人类医生的问题。
BMJ在过去几年中,人工智能取得了令人瞩目的进步,导致许多人想知道机器是否可以在包括诊断疾病在内的复杂任务中胜过人类。
虽然一些研究强调了大型语言模型 (LLM) 协助医疗诊断的能力,但这项研究重点关注它们的潜在弱点——具体来说,它们在早期痴呆症患者经常难以完成的认知任务上的表现如何。
为了探索这一点,研究人员测试了领先的聊天机器人,包括 ChatGPT 版本 4 和 4o(来自 OpenAI)、Claude 3.5(来自 Anthropic)以及 Gemini 版本 1 和 1.5(来自 Alphabet)。他们使用了蒙特利尔认知评估 (MoCA),这是一种广泛用于筛查人类早期认知障碍的测试。
MoCA 评估各种心理能力,如注意力、记忆力、语言、解决问题和视觉空间技能。 26 分(满分 30 分)或更高通常被认为是正常的。
每个聊天机器人都被要求完成 MoCA 任务,遵循给人类测试者的相同指示。执业神经科医生使用官方指南对他们的回答进行评分。
在所有聊天机器人中,ChatGPT 4o 表现最佳,得分为 26 分(满分 30 分),略高于正常认知功能的阈值。 ChatGPT 4 和 Claude 得分为 25,而 Gemini 1.0 则落后很多,得分为 16。
这些弱点可能会限制它们在临床环境中的有效性,特别是在需要高水平解决问题或同理心的角色中——这些品质在医疗保健中至关重要。
维生素 B9 缺乏与更高的痴呆风险有关 发现 版权所有 © 2024