背景:机器学习技术在医疗保健领域的使用正在增加,这使得人们能够更有效地从大型管理数据集中估计和预测健康结果。本研究的主要目的是开发一种通用机器学习 (ML) 算法,根据过去 2 年的报销次数来估计糖尿病的发病率。方法:我们从与法国国家健康数据库 (即 SNDS) 链接的基于人群的流行病学队列 (即 CONSTANCES) 中选择了一个最终数据集。为了开发这种算法,我们采用了监督式 ML 方法。执行了以下步骤:i. 选择最终数据集,ii.目标定义,iii.为给定的时间窗口编码变量,iv.将最终数据拆分为训练和测试数据集,v. 变量选择,vi。训练模型,vii。使用测试数据集验证模型和 viii。模型的选择。我们使用受试者工作特征曲线下面积 (AUC) 来选择最佳算法。结果:用于开发算法的最终数据集包括来自 CONSTANCES 的 44,659 名参与者。在与 CONSTANCES 队列相关的 SNDS 的 3468 个变量中,选择了 23 个变量来训练不同的算法。估计糖尿病发病率的最终算法是线性判别分析模型,该模型基于过去 2 年内与生物测试、药物、医疗行为和未经手术的住院治疗相关的选定变量的报销次数。该算法的敏感性为 62%,特异性为 67%,准确率为 67% [95% CI:0.66 – 0.68]。
简介:大数据源代表了糖尿病研究的机会。一个例子是法国国家卫生数据系统(SND),收集有关整个法国人口的医疗外医疗保健和住院医疗索赔的信息(6600万)。目前,基于抗糖尿病药物报销的经过验证的算法能够鉴定出SND中有药理学治疗糖尿病的人。,但不能将1型与2型糖尿病区分开。区分1型和2型糖尿病是糖尿病监测中的培训,因为它们在预防,风险,疾病自然病史,病理生理学,病理学,管理和并发症的风险方面存在差异。本文研究了使用人工智能的1型糖尿病分类算法的开发及其用于估计法国1型和2型糖尿病患病率的应用。方法:最终数据集构成了康斯坦斯队员的所有糖尿病病例(n = 951)。使用了基于八个步骤的监督机器学习方法:最终数据集选择,目标定义(类型1),编码功能,最终数据集分为培训和测试数据集,功能选择,培训以及验证以及算法的选择。将选定的算法应用于SNDS数据,以估计成人18-70岁的成年人中的1型糖尿病患病率。结果:在3481个SNDS功能中,选择了14个以训练不同的算法。人工智能为预防研究和糖尿病提供了新的可能性。最终的算法是基于上一年快速作用的胰岛素,长效胰岛素和BIGUANIDE的报销数量的线性判别分析模型(特定的97%和敏感性100%)。在2016年调整算法性能后,法国的1型糖尿病患病率分别为0.3%和4.4%。结论:我们的1类/类型2类别分类算法的性能很好,适用于其他国家/地区的任何处方或医疗索赔数据库。©2023由Elsevier Masson Sas出版。这是CC BY-NC-ND许可(http://creativecommons.org/licenses/by-nc-nd/4.0/)下的开放访问文章