3 达拉拉纳公共卫生学院 背景 人工智能 (AI) - 机器学习 (ML) 的一个子集 - 是指可以根据输入(数据)到输出(标签)的映射对新案例进行推理的计算系统。准确预测患者当前或未来健康状况的能力是一项宝贵的特性,但这样做并不能保证患者会受益。在最近对临床 AI 工具的系统评价中,只有五分之二的技术性能良好的工具也与患者结果的改善有关 1 。这些试验至关重要,原因有二:1) 可靠地确定关于 AI 工具对特定患者结果的因果影响的知识;2) 因为 AI 可能会引入新的和无法预料的错误,包括自动化偏见 2 和算法不公正 3 。确保 AI 的采用真正使患者受益反映了对循证实践、负责任的健康数据管理、组织问责制和有效利用医院资源的承诺。此外,正如我们在引入电子健康记录时所看到的那样,技术集成的方式和价值观一致的认知会对医护人员对该工具的满意度产生积极或消极的影响。出于所有这些原因,证明 AI 工具有益于患者对于患者和医护人员的道德融合至关重要。当 AI 工具的训练人群和环境与集成人群和环境高度相似时,AI 工具是最可靠的。因此,AI 系统性能的普遍性是一个有争议的问题 4 。在国际上使用 Watson for Oncology 等系统已被证明是非常不合适的。假设而不是测试模型的性能将在新环境中保留是失败的根源。中低收入国家 (LMIC) 可能合理地希望采用 AI 技术,其中一些技术可能在外部开发和试用。在某些情况下,人口分布将与训练人群有很大不同,这对系统的公平性提出了额外的担忧。国际医疗保健组织应如何确保其绩效在当地人群中得以保留,并促进而不是损害对患者的公平?本治理文件提出,静默审判是保护患者利益和伸张正义的关键过程。静默审判在模型开发中,最初使用精选数据集中的历史数据开发和验证算法,作为初步概念证明,即在给定特定输入(数据)的情况下可以有效映射某些输出(标签)。虽然这种验证是负责任的 AI 评估 5 的重要组成部分,但它不足以确保在临床环境中具有类似的性能。因此,静默试验(又称影子试验或静默模式)是指在预期的临床环境中部署模型,其中模型对活跃病例进行推理并做出预测——然而,这些预测只有研究团队可以看到,不会影响患者护理。这些预测被记录下来,并与真实的临床结果或人为因素进行比较。
主要关键词