摘要 简介 个体预后或诊断的多变量预测模型的透明报告 (TRIPOD) 声明和预测模型偏倚风险评估工具 (PROBAST) 均已发布,以改进对诊断和预后的预测模型研究的报告和批判性评价。本文介绍了用于开发 TRIPOD 声明扩展 (TRIPOD-人工智能,AI) 和 PROBAST (PROBAST-AI) 工具的过程和方法,用于应用机器学习技术的预测模型研究。 方法与分析 TRIPOD-AI 和 PROBAST-AI 将按照 EQUATOR 网络发布的指导进行开发,包括五个阶段。第 1 阶段将包括两项系统评价(涵盖所有医学领域,特别是肿瘤学),以检查已发表的基于机器学习的预测模型研究中的报告质量。在第 2 阶段,我们将使用德尔菲法咨询不同的关键利益相关者群体,以确定要考虑纳入 TRIPOD-AI 和 PROBAST-AI 的项目。第 3 阶段将以虚拟共识会议的形式整合和确定 TRIPOD-AI 和 PROBAST-AI 中要包含的关键项目的优先顺序。第 4 阶段将涉及开发 TRIPOD-AI 清单和 PROBAST-AI 工具,并撰写随附的解释和阐述论文。在最后阶段,即第 5 阶段,我们将通过期刊、会议、博客、网站(包括 TRIPOD、PROBAST 和 EQUATOR 网络)和社交媒体传播 TRIPOD-AI 和 PROBAST-AI。TRIPOD-AI 将为从事基于机器学习的预测模型研究的研究人员提供报告指南,帮助他们报告读者评估研究质量和解释其结果所需的关键细节,从而减少研究浪费。我们预计 PROBAST-AI 将帮助研究人员、临床医生、系统评价者和政策制定者通过强大的标准化偏见评估工具,批判性地评估基于机器学习的预测模型研究的设计、实施和分析。
缩写:AI = 人工智能;AUC = 受试者工作特征曲线下面积;CNN = 卷积神经网络;ML = 机器学习;PCNSL = 原发性中枢神经系统淋巴瘤;PRISMA = 系统评价和荟萃分析的首选报告项目;PROBAST = 预测模型研究偏倚风险评估工具;TRIPOD = 个体预后或诊断的多变量预测模型的透明报告 胶质瘤是中枢神经系统最常见的原发性恶性肿瘤。1 胶质瘤的一个重要的鉴别诊断是原发性中枢神经系统淋巴瘤 (PCNSL),这是一种较少见但恶性程度极高的肿瘤。2 正确区分这些肿瘤实体对临床医生来说是一项重要的挑战,因为 2021 年 7 月 26 日收到;2022 年 1 月 31 日修订后接受。
为了确保对所纳入研究的全面评估,我们使用了三种工具,每种工具都针对我们的评论中的特定研究设计量身定制。在干预措施(Robins-i)工具的非随机研究中偏见的风险已用于评估NLP在管理,处方指导和临床查询反应等应用中的NLP(13)。用于将NLP模型与医生进行比较或用于诊断和检测的参考标准的诊断研究,使用了诊断准确性研究2(Quadas-2)工具的质量评估(14)。最后,将偏差评估工具(Probast)工具的预测模型风险用于其余研究,该研究涉及NLP模型预测,而无需直接比较参考标准(15)。这种多功能方法使我们能够适当地解决审查研究中提出的多种方法和应用。
背景:手术部位感染 (SSI) 频发,对患者和医疗保健系统造成影响。目前,由于需要临床医生进行手动评估,远程监控手术伤口受到限制。基于机器学习 (ML) 的方法近期已用于解决术后伤口愈合过程的各个方面,并可用于提高远程手术伤口评估的可扩展性和成本效益。目的:本综述旨在概述用于从图像中识别手术伤口感染的 ML 方法。方法:我们按照 JBI(乔安娜·布里格斯研究所)方法对用于 SSI 视觉检测的 ML 方法进行了范围界定审查。纳入了任何术后背景下的参与者的手术伤口感染识别报告。未涉及 SSI 识别、手术伤口或未使用图像或视频数据的研究被排除在外。我们于 2022 年 11 月在 MEDLINE、Embase、CINAHL、CENTRAL、Web of Science 核心合集、IEEE Xplore、Compendex 和 arXiv 中搜索了相关研究。对检索到的记录进行了双重筛选以确定是否符合条件。使用数据提取工具绘制相关数据图表,以叙述方式描述并使用表格呈现。对 TRIPOD(个体预后或诊断的多变量预测模型透明报告)指南的使用情况进行了评估,并使用 PROBAST(预测模型偏倚风险评估工具)评估偏倚风险 (RoB)。结果:总共有 10 条筛选出的独特记录符合资格标准。在这些研究中,临床背景和手术程序各不相同。所有论文都开发了诊断模型,但没有一篇进行外部验证。使用传统 ML 和深度学习方法从大多为彩色的图像中识别 SSI,所用图像的数量从不到 50 张到数千张不等。此外,至少有4项研究报告了10个TRIPOD项目,但少于4项研究报告了15个项目。PROBAST评估显示,9项研究被认定为总体RoB较高,1项研究的RoB总体不明确。结论:基于机器学习的图像识别手术伤口感染的研究仍属新兴领域,需要标准化报告。未来应解决与图像采集、模型构建和数据源差异相关的局限性。
截肢是针对多种医疗概率的不可逆的最后一线治疗。延迟截肢而有利于肢体的治疗可能会导致发病率和死亡率的风险增加。该系统评价旨在综合有关如何应用ML以预测截肢为结果的文献。OVID EMBASE,OVID MEDLINE,ACM数字图书馆,Scopus,Web of Science和IEEE Xplore从Inception到2023年3月5日进行了搜索。1376年的研究被筛选;包括15篇文章。在糖尿病流行中,模型的范围从次级最佳到出色的性能(AUC:0.6-0.94)。在创伤患者中,模型具有强大的表现(AUC:0.88-0.95)。在接受其他病因的截肢的患者中(例如:烧伤和周围血管疾病),模型的性能相似(AUC:0.81–1.0)。发现许多研究的偏见风险很高,这通常是由于样本量较小。总而言之,已经成功地开发出了多个机器学习模型,这些模型有可能优于传统的建模技术和前瞻性临床判断,以预测截肢。需要进一步的研究来克服当前研究的局限性并将适用性带入临床环境。
摘要引言产后出血(PPH)是分娩的最严重的临床问题,它在全球范围内对孕产妇死亡产生了重大贡献。该系统评价旨在根据机器学习(ML)方法来识别PPH的预测因子。方法和分析本评论遵守了系统评价和荟萃分析协议的首选报告项目的指南。该评论定于2023年1月10日开始,并于2023年3月20日结束。主要目的是识别和总结与PPH相关的预测因素,并提出基于ML的预测算法。从成立到2022年12月,将对经过同行评审的期刊文章和在线搜索记录进行以下电子数据库的系统搜索:Cochrane Central Register,PubMed,Embase,Embase(通过OVID),Scopus,Wos,Wos,Ieee Xplore,IEEE Xplore和Google Scholar搜索引擎。将考虑所有符合以下标准的研究:(1)它们包括对PPH诊断的明确定义的一般人群; (2)它们包括用于预测PPH的ML模型,并清楚地描述了ML模型; (3)他们证明了具有指标的ML模型的性能,包括接收器操作特征曲线下的区域,准确性,精度,灵敏度和特异性。非英语语言论文将被排除在外。数据提取将由两个研究者独立执行。总共包括20个信号,将用作评估每个纳入研究的偏见和适用性的工具。道德和传播道德批准不需要,因为我们的审查将包括已发布和公开访问的数据。本评论中的发现将通过同行评审期刊中的出版物传播。Prospero注册号本审查的协议在Prospero提交,ID编号CRD42022354896。
越来越多的努力为支持个性化检测,预测或多动症治疗的预测模型做出了越来越多的努力。我们概述了ADHD中预测科学的当前状态:(1)系统地审查和评估可用的预测模型; (2)定量评估影响已发表模型性能的因素。我们进行了Prisma/Charms/Tripod符合的系统评价(Prospero:CRD42023387502),直到20/12/2012/2023,在ADHD中进行了内部和/或外部验证的诊断/或外部验证的诊断/或外部验证的诊断/治疗响应预测。使用元回归,我们探索了影响模型曲线(AUC)下面积的因素的影响。我们使用偏见评估工具的预测模型风险(Probast)评估了偏见的研究风险。从7764个识别记录中包括100个预测模型(诊断为88%,预后5%和7%的治疗响应)。分别在内部和外部验证96%和7%。在临床实践中没有实施。只有8%的模型被视为偏见的风险低; 67%被认为是偏见的高风险。临床,神经影像学和认知预测因子分别用于35%,31%和27%的研究。与不包括临床预测因子在内的那些模型相比,ADHD预测模型的性能增加了(β= 6.54,p = 0.007)。验证类型,年龄范围,模型类型,预测因子的数量,研究质量和其他类型的预测变量并未改变AUC。已经开发了几种预测模型来支持多动症的诊断。但是,预测结果或治疗反应的努力受到限制,并且没有一个可用模型可以准备在临床实践中实施。使用临床预测因子的使用可能与其他类型的预测指标相结合,似乎可以提高模型的性能。新一代研究应通过进行高质量,可复制和外部验证的模型,然后进行实施研究来解决这些差距。
越来越多的努力为支持个性化检测,预测或多动症治疗的预测模型做出了越来越多的努力。我们概述了ADHD中预测科学的当前状态:(1)系统地审查和评估可用的预测模型; (2)定量评估影响已发表模型性能的因素。我们进行了Prisma/Charms/Tripod符合的系统评价(Prospero:CRD42023387502),直到20/12/2012/2023,在ADHD中进行了内部和/或外部验证的诊断/或外部验证的诊断/或外部验证的诊断/治疗响应预测。使用元回归,我们探索了影响模型曲线(AUC)下面积的因素的影响。我们使用偏见评估工具的预测模型风险(Probast)评估了偏见的研究风险。从7764个识别记录中包括100个预测模型(诊断为88%,预后5%和7%的治疗响应)。分别在内部和外部验证96%和7%。在临床实践中没有实施。只有8%的模型被视为偏见的风险低; 67%被认为是偏见的高风险。临床,神经影像学和认知预测因子分别用于35%,31%和27%的研究。与不包括临床预测因子在内的那些模型相比,ADHD预测模型的性能增加了(β= 6.54,p = 0.007)。验证类型,年龄范围,模型类型,预测因子的数量,研究质量和其他类型的预测变量并未改变AUC。已经开发了几种预测模型来支持多动症的诊断。但是,预测结果或治疗反应的努力受到限制,并且没有一个可用模型可以准备在临床实践中实施。使用临床预测因子的使用可能与其他类型的预测指标相结合,似乎可以提高模型的性能。新一代研究应通过进行高质量,可复制和外部验证的模型,然后进行实施研究来解决这些差距。