Loading...
机构名称:
¥ 1.0

目标 介绍我们基于人工智能的症状检查器,严格测量其准确性,并将其与现有的流行症状检查器和经验丰富的初级保健医生进行比较。 设计案例研究。 设置 400 个黄金标准初级保健案例。 干预/比较器我们使用了 7 个标准准确性指标来评估 6 个症状检查器的性能。为此,我们开发并同行评审了 400 个案例,每个案例都得到了 7 名独立且经验丰富的全科医生中至少 5 名的认可。据我们所知,这产生了迄今为止该领域最大的基准案例套件。 为了建立参考框架并相应地解释症状检查器的结果,我们进一步将表现最佳的症状检查器与 3 名平均经验为 16.6 年的初级保健医生直接进行比较。主要结果测量我们从 7 个标准角度彻底研究了症状检查者和医生的诊断准确率,包括:(a) 𝑀 1、𝑀 3 和 𝑀 5 分别作为症状检查者或医生在前 3 种疾病中或前 5 种鉴别诊断疾病中返回小插图主要诊断的能力的测量指标;(b) 召回率作为症状检查者或医生鉴别诊断中返回的相关疾病百分比的测量指标;(c) 精确度作为症状检查者或医生鉴别诊断中相关疾病百分比的测量指标;(d) F1 测量作为召回率和精确度之间的权衡测量指标;(e) 归一化折现累积增益或 NDCG 作为症状检查者或医生鉴别诊断排名质量的测量指标诊断。结果 我们的基于 AI 的症状检查器 Avey 的表现明显优于 5 种流行的症状检查器,即 Ada、WebMD、K Health、Buoy 和 Babylon,使用 𝑀 1 时平均高出 24.5%、175.5%、142.8%、159.6%、2968.1%;使用 𝑀 3 时平均高出 22.4%、114.5%、123.8%、118.2%、3392%;使用 𝑀 5 时平均高出 18.1%、79.2%、116.8%、125%、3114.2%;使用召回率时平均高出 25.2%、65.6%、109.4%、154%、3545%;使用 F1 测量时分别为 8.7%、88.9%、66.4%、88.9%、2084%;使用 NDCG 时分别为 21.2%、93.4%、113.3%、136.4%、3091.6%。在精度方面,Ada 平均比 Avey 高出 0.9%,而 Avey 分别比 WebMD、K Health、Buoy 和 Babylon 高出 103.2%、40.9%、49.6% 和 1148.5%。与症状检查员相反,医生在使用精确度和 F1 测量时比 Avey 平均高出 37.1% 和 1.2%,而 Avey 在使用 𝑀 1、𝑀 3、𝑀 5、召回率和 NDCG 时分别比他们平均高出 10.2%、20.4%、23.4%、56.4% 和 25.1%。为了提高我们研究的可重复性并支持未来的相关研究,我们公开并免费提供了所有黄金标准小插图。此外,我们在网上发布了症状检查员和医生的所有结果(即 45 组

Avey:一种用于自我诊断的精确人工智能算法

Avey:一种用于自我诊断的精确人工智能算法PDF文件第1页

Avey:一种用于自我诊断的精确人工智能算法PDF文件第2页

Avey:一种用于自我诊断的精确人工智能算法PDF文件第3页

Avey:一种用于自我诊断的精确人工智能算法PDF文件第4页

Avey:一种用于自我诊断的精确人工智能算法PDF文件第5页

相关文件推荐