用于预测不良临床事件的高级统计模型已在文献中无处不在,我们经常听说人工智能或机器学习 (ML) 等概念将颠覆医学。鉴于外科手术和重症监护入院期间产生的数据量,这些临床领域是 ML 应用的典型。然而,面对巨大的关注和巨大的研究成果,迄今为止经过临床验证和实施的算法却很少。1 在麻醉和重症监护领域,我们所熟悉的令人信服的脓毒症预测研究很少,但它们要么规模较小 2 ,要么不是设计为随机对照试验。3 在本文中,我们广泛讨论了 ML 在现实世界中实施困难的一些原因。其中一些原因与方法论有关,另一些原因与临床背景有关。提出问题很少有机器学习研究人员非常熟悉临床环境,因此许多机器学习研究的开展方式不易转化为临床应用也就不足为奇了。恰当地构建机器学习研究(即正确定义临床事件和预测任务)需要跨学科知识和详细的方法讨论。例如,对于预测任务,构建框架包括确定临床结果、指定预测的准确时间、选择观察窗口等。这些细节有时考虑不周,有时描述不清。构建框架是正在开发的机器学习模型的支柱,评估是在构建框架的背景下进行的。4 因此,如果没有明确且具有临床相关性的构建框架,看似高性能的模型可能仍然无法在临床上使用。5 许多机器学习研究试图解决临床相关问题,但将问题过度简化到最终失去临床相关性的地步。机器学习研究中无处不在的病例对照构建框架/设计就是一个很好的例子,研究人员试图解决与临床现实不符的临床相关问题。经典病例对照研究的证据水平很弱,而且这种设计的缺陷(如选择偏差)不会因为研究应用了机器学习技术而消失。在创建能够做出预测并随时间更新的模型方面,在“验证研究”中应用病例对照设计往往会产生应避免的时间偏差。6 当发布以这种方式开发的黑箱预测算法时,结果往往是阳性预测值急剧下降,6 并且用户不可能知道哪些事件警报值得信任。观察数据的性质许多研究都是基于对大量回顾性收集的数据集的分析,缺失数据是一种常见且自然的现象。由于数据很少随机缺失,因此缺失数据的处理通常是一个主要问题。我们可以想到一个简单的生理示例,即休克/低血压时 SpO 2 无法测量。临床示例是急诊科 (ED) 采集动脉血气的患者与未采集动脉血气的患者之间的差异。临床医生决定获取该血气。观察结果的存在或缺失告诉我们一些重要的事情。更进一步说:血气是在何时何地采集的?如果在心脏手术恢复室术后最初几个小时采集,那么很可能获得该实验室测试结果以告知 FiO 2 调整,这表明与 ED 患者不同的“实验室存在风险”。一项大型回顾性研究发现,仅仅“存在实验室测试订单,无论有关测试结果的任何其他信息如何,都与
本文件中明示或暗示的任何陈述、声明、意见或建议均本着善意做出,但Tilma Group Pty Ltd 不对任何人承担任何责任(无论是由于疏忽、缺乏照顾或其他原因),无论该人是否就本文件中提及的任何陈述、声明或建议采取(视情况而定)行动而发生或可能发生的任何损害或损失。