重要性:医疗保健中的人工智能 (AI) 应用已在医学的许多领域中有效发挥作用,但它们通常使用标记数据进行单一任务训练,这使得部署和普遍性具有挑战性。通用 AI 语言模型是否可以执行诊断和分类尚不得而知。目标:将通用生成式预训练 Transformer 3 (GPT-3) AI 模型的诊断和分类性能与使用互联网的主治医生和非专业成年人进行比较。设计:我们比较了 GPT-3 对 48 个经过验证的常见(例如病毒性疾病)和严重(例如心脏病发作)病例小插图的诊断和分类能力与非专业人士和执业医师的准确性。最后,我们检查了 GPT-3 对诊断和分类的信心校准程度。设置和参与者:GPT-3 模型,一个具有全国代表性的非专业人士和执业医师样本。接触:经过验证的案例小插图(<60 字;<6 年级阅读水平)。主要结果和测量:正确诊断,正确分类。结果:在所有病例中,GPT-3 对 88%(95% CI,75% 至 94%)的病例的前 3 位做出了正确诊断,而普通人为 54%(95% CI,53% 至 55%)(p<0.001),医生为 96%(95% CI,94% 至 97%)(p=0.0354)。GPT-3 的分类(71% 正确;95% CI,57% 至 82%)与普通人(74%;95% CI,73% 至 75%;p=0.73)相似;两者都明显差于医生(91%;95% CI,89% 至 93%;p<0.001)。根据 Brier 评分,GPT-3 对其最佳预测的信心在诊断(Brier 评分 = 0.18)和分类(Brier 评分 = 0.22)方面相当准确。结论和相关性:通用 AI 语言模型无需任何内容特定训练即可执行接近但低于医生的诊断水平,并且优于普通人。该模型在分类方面的表现较差,其表现更接近普通人。
主要关键词