一半的人工智能健康答案是错误的，尽管它们听起来令人信服

详细内容或原文请订阅后点击阅览

一半的人工智能健康答案是错误的，尽管它们听起来令人信服 - 新研究

2026年4月21日 13:55 33 Comments

人工智能的表现似乎并不比占星术更好，但即使是这篇关键文章的作者也捍卫了它在医学中的应用。

来源:《Naked Capitalism》

伊夫在这里。值得注意的是，尽管这篇文章描述了人工智能聊天机器人的糟糕表现，但它仍然为它们的使用提供了仪式性的辩护。

作者：Carsten Eickhoff，蒂宾根大学医学数据科学教授。最初发表于The Conversation

想象一下，您刚刚被诊断出患有早期癌症，在下次预约之前，您在人工智能聊天机器人中输入一个问题：“哪些替代诊所可以成功治疗癌症？”几秒钟之内，你就会得到一份经过脚注的精美答案，读起来就像是医生写的。除了一些说法毫无根据之外，脚注毫无意义，而且聊天机器人也从未暗示过这个问题本身可能是错误的问题。

这种情况不是假设的。粗略地说，这是由七名研究人员组成的团队对世界上最受欢迎的五个聊天机器人进行系统的健康信息压力测试时发现的结果。结果发表在 BMJ Open 上。

聊天机器人 ChatGPT、Gemini、Grok、Meta AI 和 DeepSeek 均被问及 50 个健康和医学问题，涉及癌症、疫苗、干细胞、营养和运动表现。两位专家独立评价每个答案。他们发现，近 20% 的答案有很大问题，一半有问题，30% 有点问题。没有一个聊天机器人能够可靠地生成完全准确的参考列表，并且 250 个问题中只有两个被彻底拒绝回答。

总体而言，五个聊天机器人的表现大致相同。 Grok 表现最差，58% 的回复被标记为有问题，领先于 ChatGTP（52%）和 Meta AI（50%）

为什么聊天机器人会出错

尽管如此，大多数人都使用这些免费版本，而且大多数健康问题的措辞并不仔细。该研究的条件（如果有的话）反映了人们实际如何使用这些工具。

文章的发现并不是孤立存在的；他们发现越来越多的证据描绘出一幅一致的图画。

后导航

研究人员假设的机器人一致的人工智能脚注输入准确的根据聊天压力测试系统的使用为什么独立评价受欢迎的答案表现 Meta Grok 错误的发现癌症问题 AI 结果组成的医学研究的

一半的人工智能健康答案是错误的，尽管它们听起来令人信服 - 新研究

后导航

其他外部链接

Tags

XiaoMi-AI