人工智能健康工具比以往任何时候都多,但它们的效果如何?

本月早些时候,微软推出了 Copilot Health,这是其 Copilot 应用程序中的一个新空间,用户可以在其中连接他们的医疗记录并询问有关其健康状况的具体问题。几天前,亚马逊宣布 Health AI(一种基于法学硕士的工具,之前仅限其 One Medical 服务的成员使用)将......

来源:MIT Technology Review _人工智能

Bean 说,理想情况下,健康聊天机器人在向公众发布之前,应该像他的研究中那样接受人类用户的受控测试。这可能是一个沉重的负担,特别是考虑到人工智能世界发展的速度有多快以及人类研究需要多长时间。 Bean 自己的研究使用了 GPT-4o,它大约一年前问世,现在已经过时了。

本月早些时候,谷歌发布了一项符合 Bean 标准的研究。在这项研究中,患者在与人类医生会面之前,与该公司的 Articulate Medical Intelligence Explorer (AMIE) 讨论了医疗问题,AMIE 是一种医学法学硕士聊天机器人,目前尚未向公众开放。总体而言,AMIE 的诊断与医生的诊断一样准确,并且所有对话都没有给研究人员带来重大的安全问题。

尽管取得了令人鼓舞的结果,但 Google 并不打算很快发布 AMIE。谷歌 DeepMind 的研究科学家 Alan Karthikesalingam 在一封电子邮件中写道:“虽然研究取得了进展,但在将诊断和治疗系统应用于现实世界之前,必须解决一些重大限制,包括对公平性、公平性和安全性测试的进一步研究。”谷歌最近确实透露,它与 CVS 合作构建的健康平台 Health100 将包括由其旗舰 Gemini 模型提供支持的人工智能助手,尽管该工具可能不会用于诊断或治疗。

Rodman 与 Karthikesalingam 一起领导了 AMIE 研究,他认为如此广泛、多年的研究不一定是 ChatGPT Health 和 Copilot Health 等聊天机器人的正确方法。 “有很多原因导致临床试验范式并不总是适用于生成人工智能,”他说。 “这就是基准测试对话的切入点。是否有来自值得信赖的第三方的基准,我们一致认为这些基准是有意义的,实验室可以坚持这样做?”