详细内容或原文请订阅后点击阅览
致电 GPT 医生:人工智能对医疗保健查询的响应准确率接近 76%
AI 驱动的聊天机器人回答健康问题的准确率达到 76%,给患者带来了信任问题,并强调了专业使用的必要性。
来源:Scientific Inquirer根据宾夕法尼亚州立大学研究人员领导的一项新研究,人工智能 (AI) 支持的聊天机器人能够以近 76% 的准确率回答普通用户的日常健康相关问题,这引发了人们对其在现实世界中面向客户的应用程序的可信度的担忧。
研究人员希望了解普通人如何使用人工智能来解决与健康相关的问题,以及人工智能对日常医疗查询的响应有多准确。他们发现,在医疗保健方面,尤其是神经病学和皮肤病学等专业领域,人工智能工具在训练有素的医生而不是患者手中可能效果最好。该团队将于 6 月 25 日至 28 日在加拿大蒙特利尔举行的 2026 年计算机公平、问责和透明度协会 (FAccT) 会议上展示他们的研究结果。
研究合著者、宾夕法尼亚州立大学信息科学与技术学院 (IST) 信息学和智能系统副教授 Amulya Yadav 表示:“我们的工作明确关注普通互联网用户可能会询问人工智能的医疗保健场景,这是之前对大语言模型 (LLM) 和医疗保健的研究尚未涵盖的视角。” “我们想了解,如果人们使用像 ChatGPT 这样的法学硕士作为症状健康检查器,就像我们历史上使用谷歌一样,法学硕士在回答这些问题时的准确性如何,以及这些回答的危害有多大?”
为了了解与健康相关的 LLM 回答对于普通互联网用户来说有多准确或有害,研究人员在宾夕法尼亚州立大学举办了一场名为“诊断马拉松”的人工智能竞赛。共有 34 名参与者(包括教职员工、本科生和研究生)从患者和医生的角度提交了 212 条提示和人工智能对真实和想象的健康问题的回答。参赛者可以选择四个法学硕士之一用于比赛:ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro 和 Llama3-8b。
