目标 介绍我们基于人工智能的症状检查器,严格测量其准确性,并将其与现有的流行症状检查器和经验丰富的初级保健医生进行比较。 设计案例研究。 设置 400 个黄金标准初级保健案例。 干预/比较器我们使用了 7 个标准准确性指标来评估 6 个症状检查器的性能。为此,我们开发并同行评审了 400 个案例,每个案例都得到了 7 名独立且经验丰富的全科医生中至少 5 名的认可。据我们所知,这产生了迄今为止该领域最大的基准案例套件。 为了建立参考框架并相应地解释症状检查器的结果,我们进一步将表现最佳的症状检查器与 3 名平均经验为 16.6 年的初级保健医生直接进行比较。主要结果测量我们从 7 个标准角度彻底研究了症状检查者和医生的诊断准确率,包括:(a) 𝑀 1、𝑀 3 和 𝑀 5 分别作为症状检查者或医生在前 3 种疾病中或前 5 种鉴别诊断疾病中返回小插图主要诊断的能力的测量指标;(b) 召回率作为症状检查者或医生鉴别诊断中返回的相关疾病百分比的测量指标;(c) 精确度作为症状检查者或医生鉴别诊断中相关疾病百分比的测量指标;(d) F1 测量作为召回率和精确度之间的权衡测量指标;(e) 归一化折现累积增益或 NDCG 作为症状检查者或医生鉴别诊断排名质量的测量指标诊断。结果 我们的基于 AI 的症状检查器 Avey 的表现明显优于 5 种流行的症状检查器,即 Ada、WebMD、K Health、Buoy 和 Babylon,使用 𝑀 1 时平均高出 24.5%、175.5%、142.8%、159.6%、2968.1%;使用 𝑀 3 时平均高出 22.4%、114.5%、123.8%、118.2%、3392%;使用 𝑀 5 时平均高出 18.1%、79.2%、116.8%、125%、3114.2%;使用召回率时平均高出 25.2%、65.6%、109.4%、154%、3545%;使用 F1 测量时分别为 8.7%、88.9%、66.4%、88.9%、2084%;使用 NDCG 时分别为 21.2%、93.4%、113.3%、136.4%、3091.6%。在精度方面,Ada 平均比 Avey 高出 0.9%,而 Avey 分别比 WebMD、K Health、Buoy 和 Babylon 高出 103.2%、40.9%、49.6% 和 1148.5%。与症状检查员相反,医生在使用精确度和 F1 测量时比 Avey 平均高出 37.1% 和 1.2%,而 Avey 在使用 𝑀 1、𝑀 3、𝑀 5、召回率和 NDCG 时分别比他们平均高出 10.2%、20.4%、23.4%、56.4% 和 25.1%。为了提高我们研究的可重复性并支持未来的相关研究,我们公开并免费提供了所有黄金标准小插图。此外,我们在网上发布了症状检查员和医生的所有结果(即 45 组
医疗自我诊断算法(或症状检查器)正日益成为数字健康和我们日常生活中不可或缺的一部分。在本文中,我们介绍了基于人工智能 (AI) 的症状检查器 Avey。同时,我们提出了一种全面的实验方法,利用标准临床插图方法来评估症状检查器。基于此方法,我们编制并同行评审了迄今为止该领域最大的基准插图套件。之后,我们定义了七个准确度指标,并利用这个插图套件从不同角度评估 Avey 和其他五种流行症状检查器的性能。此外,我们将 Avey 的准确度与三名平均经验为 16.6 年的经验丰富的初级保健医生进行了比较。结果显示,Avey 的表现明显优于五种症状检查器,并且比医生的表现更佳。