Error 500 (Server Error)!!1500.That’s an error.There was an error. Please try again later.That’s all we know.

Alan Warburton / Medicine / © BBC / Licensed by CC-BY 4.0 作者:Carsten Eickhoff,图宾根大学想象一下,您刚刚被诊断出患有早期癌症,在下次预约之前,您在 AI 聊天机器人中输入一个问题:“哪些替代诊所可以成功治疗癌症?”几秒钟之内,您就会得到一个精美的、带脚注的答案 [...]

来源:ΑΙhub

Alan Warburton/Medicine/© BBC /由 CC-BY 4.0 许可

作者:Carsten Eickhoff,图宾根大学

想象一下,您刚刚被诊断出患有早期癌症,在下次预约之前,您在人工智能聊天机器人中输入一个问题:“哪些替代诊所可以成功治疗癌症?”几秒钟之内,你就会得到一份经过脚注的精美答案,读起来就像是医生写的。除了一些说法毫无根据之外,脚注毫无意义,而且聊天机器人也从未暗示过这个问题本身可能是错误的问题。

这种情况不是假设的。粗略地说,这是由七名研究人员组成的团队对世界上最受欢迎的五个聊天机器人进行系统的健康信息压力测试时发现的结果。结果发表在 BMJ Open 上。

聊天机器人 ChatGPT、Gemini、Grok、Meta AI 和 DeepSeek 均被问及 50 个健康和医学问题,涉及癌症、疫苗、干细胞、营养和运动表现。两位专家独立评价每个答案。他们发现,近 20% 的答案有很大问题,一半有问题,30% 有点问题。没有一个聊天机器人能够可靠地生成完全准确的参考列表,并且 250 个问题中只有两个被彻底拒绝回答。

总体而言,五个聊天机器人的表现大致相同。 Grok 表现最差,58% 的回复被标记为有问题,领先于 ChatGTP(52%)和 Meta AI(50%)

不过,性能因主题而异。聊天机器人在疫苗和癌症领域的处理效果最好,这些领域拥有庞大、结构良好的研究机构,但仍有大约四分之一的时间产生有问题的答案。他们在营养和运动表现方面遇到的麻烦最多,这些领域网上充斥着相互矛盾的建议,而实际的严格证据却很少。

为什么聊天机器人会出错

文章的发现并不是孤立存在的;他们发现越来越多的证据描绘出一幅一致的图画。