21种大型语言模型研究表明人工智能仍缺乏临床推理能力

一项研究表明,虽然人工智能可以正确诊断疾病,但它在临床推理方面存在困难,特别是在制定鉴别诊断方面。研究人员强调医疗人工智能应用中需要人工监督。

来源:Scientific Inquirer

尽管人工智能 (AI) 在医疗保健领域的应用越来越多,但由麻省总医院布里格姆分校 MESH 孵化器研究人员领导的一项新研究表明,生成式 AI 模型在临床推理能力方面仍然存在不足。

通过要求 21 种不同的大型语言模型 (LLM) 在一系列临床场景中扮演医生的角色,研究人员发现,LLM 经常无法进行诊断检查并得出可测试的潜在或“差异”诊断列表。根据《JAMA Network Open》发表的结果,尽管所有接受测试的法学硕士在提供患者病例的所有相关信息后,在 90% 以上的情况下都能得出正确的最终诊断,但他们在诊断过程的早期推理驱动步骤中始终表现不佳。

“尽管不断改进,现成的大型语言模型还没有准备好进行无监督的临床级部署,”通讯作者、麻省总医院 MESH 孵化器执行董事、医学博士 Marc Succi 说道。 “鉴别诊断是临床推理的核心,也是人工智能目前无法复制的‘医学艺术’的基础。人工智能在临床医学中的前景仍然在于其增强而不是取代医生推理的潜力,前提是所有相关数据都可用——但情况并非总是如此。”

这项新研究是 Succi 的 MESH 小组领导的先前工作的后续研究,其中研究人员评估了 ChatGPT 3.5 准确诊断一系列临床症状的能力。

“通过逐步评估法学硕士,我们不再像考生一样对待他们,而是将他们置于医生的位置,”主要作者、MESH 研究员、哈佛医学院医学博士生 Arya Rao 说。 “一旦数据完成,这些模型非常擅长命名最终诊断,但在没有太多信息的情况下,它们在病例的开放式开始时表现不佳。”