6 Karolinska Institutet分子与外科系,瑞典,瑞典7号,临床遗传学部,Karolinska大学医院,斯德哥尔摩,瑞典8(医院del Mar Research Institute),Centro de evressions,diCA diCA dica en de fragilidabe salcer,sallue ersone,荷兰鹿特丹的ASMUS大学医学中心,10遗传学,微生物学和统计系,生物学学院,巴塞罗那大学,Centro de Biome。巴塞罗那,西班牙,11分子内分泌学实验室,代谢,消化和繁殖系,帝国伦敦大学,伦敦,英国,12 佛罗伦萨大学外科与转化医学系(MLB),意大利佛罗伦萨,13 IRCCS Rizzoli 骨科研究所医学遗传学与骨骼罕见疾病系,意大利博洛尼亚,14 约翰内斯开普勒林茨大学儿科与青少年医学系,奥地利林茨,
在过去的几年中,虚拟现实 (VR) 设备和软件越来越受欢迎,并且已被证明可以提高外科医生对患者解剖结构的理解。7-9 VR 平台比现有的 2D 或 3D 规划软件具有更多特性和功能,包括沉浸式和交互式操作、逼真的深度感知以及复杂解剖结构关系的可视化,外科医生可以随时应用这些特性来更真实地了解患者的解剖结构。8、10 此外,自动成像算法可以通过自动可视化感兴趣的解剖结构来创建更有效的规划。11、12 通过开发基于人工智能 (AI) 的沉浸式 3D-VR 平台作为传统 CT 成像的补充术前规划工具,可以为胸外科医生的武器库增添新颖性。
结合丰富的可用数据(例如医疗记录)及其多功能性,人工智能驱动的应用程序通常可以轻松地在数字系统中实现,并且几乎立即影响其使用环境。最常见的人工智能形式也称为“机器学习”(ML);然而,被称为“深度学习”的其他形式的人工智能正变得越来越频繁地使用,并且在未来会变得更加普遍。6、8 在详细介绍机器学习的技术方面之前,应仅在专业人员和患者共同决策期间在支持角色的背景下考虑人工智能或机器学习的使用。根据机器学习的发展模式,它可以分为:监督学习、无监督学习或强化“学习”。 6 在监督学习中,每个人的数据及其背景都会根据历史数据中某个事件的发生或缺失来创建预测或分类算法(例如,检测慢性疲劳等合并症、预测从 ICU 安全出院或个性化锻炼方案)。无监督学习侧重于未标记的数据集(没有发生预设的结果或事件),旨在探索、解开或确认数据集内现有的模式。强化学习是 ML 的一个子类别,侧重于通过最大化正确和/或不正确结果的可能性来优化预测/分类。虽然所有形式的 ML 都可能用于物理治疗,但监督 ML 算法最为常见,因为其输出类型通常类似于临床推理过程(例如决策树或决策规则)并且通常易于理解/实施。第二个重要特征是,AI 算法首先在数据集的一部分(训练集)上进行训练,然后在独立数据集上进行交叉验证,其性能以类似于物理治疗中常用的标准化临床测试的方式记录。AI 算法的性能指标(灵敏度、特异性、曲线下面积和其他 AI 特定的召回率和偏差指标)遵循与标准化临床测试大致相同的原则。3、6、7
背景:在 DESIRE 研究中(使用人工智能预测术后出院),我们之前已经在 1,677 名胃肠道和肿瘤外科患者中开发并验证了一种机器学习概念,该概念可以预测术后第二天后的安全出院。尽管模型在学术外科人群中表现出色(受试者工作特征曲线下面积为 0.88),但这些发现是否可以推广到其他医院和外科人群仍不得而知。因此,我们旨在确定之前开发的机器学习概念的普遍性。方法:我们在 2017 年 1 月至 2021 年 6 月期间入住荷兰 3 家非学术医院的胃肠道和肿瘤外科患者中对机器学习概念进行了外部验证,这些患者在手术后 2 天内仍住院。主要结果是预测术后第二天医院干预的能力,这些干预被定义为计划外的再次手术、放射学干预和/或静脉注射抗生素。对四个森林模型进行了本地训练,并根据受试者工作特征曲线下面积、敏感性、特异性、阳性预测值和阴性预测值进行了评估。结果:所有模型都对 1,693 例病例进行了训练,其中 731 例(29.9%)需要医院干预,并表现出良好的性能(受试者工作特征曲线下面积仅变化 4%)。最佳模型实现了 0.83 的受试者工作特征曲线下面积(95% 置信区间 [0.81 e 0.85])、敏感度为 77.9%(0.67 e 0.87)、特异度为 79.2%(0.72 e 0.85)、阳性预测值为 61.6%(0.54 e 0.69),阴性预测值为 89.3%(0.85 e 0.93)。结论:这项研究表明,先前开发的机器学习概念可以通过对本地患者数据进行模型训练来预测不同外科人群和医院环境(学术与非学术)中的安全出院。鉴于其高准确性,将机器学习概念整合到临床工作流程中可以加快外科出院速度,并通过减少可避免的住院天数来帮助医院应对容量挑战。© 2022 作者。由 Elsevier Inc. 出版。这是一篇根据 CC BY 许可 ( http://creativecommons.org/licenses/by/4.0/ ) 开放获取的文章。
摘要 目的 比较两个执行规范性脑容量分析的人工智能软件包,并探索它们是否会在临床背景下对痴呆症诊断产生不同的影响。方法 回顾性地纳入了 60 名患者(20 名阿尔茨海默病、20 名额颞叶痴呆、20 名轻度认知障碍)和 20 名对照。每个受试者使用两家专有制造商的软件包处理一次 MRI,为每个受试者生成两份定量报告。两名神经放射科医生仅使用这些报告中的规范容量分析数据分配强制选择诊断。他们将体积分布分类为“正常”或“异常”,如果“异常”,他们会指定最可能的痴呆亚型。通过比较(1)基于软件输出的诊断之间的一致性;(2)诊断准确性、敏感性和特异性;来评估软件包之间的临床影响差异;和 (3) 诊断信心。还比较了定量输出,以提供任何诊断差异的背景。结果 软件包之间的诊断一致性为中等,用于区分正常和异常体积(K = .41– .43)和特定诊断(K = .36–.38)。但是,每个软件包在区分正常和异常概况时都产生了较高的观察者间一致性(K = .73–.82)。软件包之间的准确度、灵敏度和特异性没有差异。对于一个评估者来说,不同软件包之间的诊断信心是不同的。软件包之间的全脑颅内容积输出不同(10.73%,p < .001),用于诊断的规范区域数据相关性弱至中等(r s = .12–.80)。结论 用于脑 MRI 定量规范评估的不同人工智能软件包可以在临床解释层面产生不同的效果。诊所不应假设不同的软件包可以互换,因此建议在采用之前对软件包进行内部评估。