标题:以任务为导向的预测(上)-Bert:使用单中心EHR数据作者预测糖尿病并发症的新方法:Humayera Islam 1,MS,Gillian Bartlett 1,2,4 1,2,4,PhD,Robert Pierce 4,Robert Pierce 4,MD,MD,MD,MD,Praveen Rao 1,3,Phd,Phd,Phd,Phd,Lemuel R.Waitman R.Waitman 1,2,2,4,PHD,X,1,2,4,x,1,2,4,x,x.对于数据科学和信息学,2生物医学信息学,生物统计学和医学流行病学系3电气工程和计算机科学系,美国密苏里大学医学院4,美国哥伦比亚大学摘要中,我们在这项研究中,我们评估了伯特(Bertirectional Encoders)的能力(来自变形金刚的双向编码者)的能力,以预测12个通用的疾病,以预测12个通用的风险,神经病和主要不良心血管事件(MACE)使用单中心EHR数据集。我们引入了一个面向任务的预测(TOP)-bert体系结构,它是使用顺序输入结构,嵌入层和bert固有的编码堆栈的独特端到端训练和评估框架。这种增强的体系结构训练并同时跨多个学习任务评估模型,从而增强了模型从有限数据中学习的能力。我们的发现表明,这种方法可以胜过传统的预处理模型和传统的机器学习方法,提供有前途的工具,用于早期鉴定有与糖尿病相关并发症风险的患者。我们还调查了不同的时间嵌入策略如何影响模型的预测能力,更简单的设计可产生更好的性能。使用综合梯度(IG)可增强我们的预测模型的解释性,从而产生特征归因,从而证实了这项研究的临床意义。最后,这项研究还强调了主动症状评估的重要作用以及合并症的管理在防止糖尿病患者并发症发展方面的发展。引言糖尿病引起的微血管并发症可能会对糖尿病管理和患者护理产生重大影响1,2。对这些并发症的早期预测允许鉴定高危患者并积极实施预防措施3-7。通过这种动机,研究人员开发了预测糖尿病相关并发症的模型,主要强调心血管结局,并且在较小程度上是肾脏和眼睛并发症3,8。但是,大多数先前的研究都集中在使用有限数量的风险因素来预测风险评分,通常是从以前的文献8-14中策划的。尽管许多机器学习(ML)和深度学习(DL)模型在最近的研究中出现,但经典的ML模型主导了这些研究 - 主要限于性能比较,只有少数群体深入研究新的风险因素并发现新知识15,16。电子健康记录(EHR)系统中的数字患者数据在开发临床风险预测模型中起着至关重要的作用,从而指导基于证据的医疗干预措施的发展13,17,18。因此,从EHR数据得出的特征向量可以实现传统的ML和DL技术19,20。结构化EHR系统系统地记录了患者遇到的时间表,包括人口统计学,生命体征,诊断,处方药,实验室测试结果和医疗程序等元素。但是,EHR数据中包含的复杂和丰富的信息通常被凝结,以创建预测模型的摘要特征。此过程可以减少数据的时间和上下文丰富性。这种简化经常忽略EHR数据的复杂性质,例如稀疏性,异质性和不规则访问模式,从而导致模型过度拟合和缺乏模型通用性21。
主要关键词