本研究旨在应用机器学习方法评估与严重不良事件 (SAE) 相关的危险因素并预测使用抗肿瘤药物的癌症住院患者 SAE 的发生。回顾性审查了 2017 年 1 月 1 日至 12 月 31 日期间入院的 499 名确诊为癌症的患者的病历。首先,使用全局触发工具 (GTT) 主动监测抗肿瘤药物引起的药物不良事件 (ADE) 和 SAE,并将阳性触发因素的数量作为中间变量。随后,通过单变量分析和最小绝对收缩和选择算子 (LASSO) 分析选出具有统计学意义的危险因素。最后,以LASSO分析后的危险因素作为协变量,采用基于逻辑模型、极端梯度提升(XGBoost)、分类提升(CatBoost)、自适应提升(AdaBoost)、轻梯度提升机(LightGBM)、随机森林(RF)、梯度提升决策树(GBDT)、决策树(DT)和基于七种算法的集成模型的列线图建立预测模型,并使用ROC曲线下面积(AUROC)、PR曲线下面积(AUPR)等一系列指标评估模型性能。在我们的样本中共识别出94名SAE患者,SAE的危险因素包括诱发因素数量、住院时间、年龄、联合用药数、既往化疗中发生的ADE以及性别。在测试队列中,基于逻辑模型的列线图的AUROC为0.799,AUPR为0.527。在八种机器学习模型中,GBDT 的预测能力最好(AUROC = 0.832 和 AUPR = 0.557),优于列线图,因此被选为建立预测网页。本研究提供了一种准确预测癌症住院患者 SAE 发生率的新方法。
背景:糖尿病肾脏疾病(DKD)已成为慢性肾脏疾病的主要原因。但是,DKD的早期诊断很具有挑战性。三甲胺氧化物(TMAO)是一种肠道微生物代谢产物,可能与糖尿病并发症有关。这项研究的目的是研究TMAO和DKD之间的相关性。方法:进行了横断面研究。本研究总共招募了108名T2DM患者和33名健康受试者。进行了多个逻辑回归分析和接收器操作特征曲线(AUROC)下的区域,以评估血清TMAO和DKD之间的相关性。结果:DKD患者的血清TMAO水平明显高于健康对照组,而NDKD(没有合并DKD的T2DM)组(P <0.05)。TMAO水平与EGFR负相关,并与尿素氮,ACR和DKD呈正相关(P <0.05)。逻辑回归分析表明,血清TMAO是DKD患者的独立风险因素之一(P <0.05)。在诊断模型中,DKD诊断的TMAO的AUROC为0.691。结论:血清TMAO水平升高与T2DM患者的DKD风险呈正相关,这可能是DKD的潜在生物标志物。
背景:糖尿病肾脏疾病(DKD)已成为慢性肾脏疾病的主要原因。但是,DKD的早期诊断很具有挑战性。三甲胺氧化物(TMAO)是一种肠道微生物代谢产物,可能与糖尿病并发症有关。这项研究的目的是研究TMAO和DKD之间的相关性。方法:进行了横断面研究。本研究总共招募了108名T2DM患者和33名健康受试者。进行了多个逻辑回归分析和接收器操作特征曲线(AUROC)下的区域,以评估血清TMAO和DKD之间的相关性。结果:DKD患者的血清TMAO水平明显高于健康对照组,而NDKD(没有合并DKD的T2DM)组(P <0.05)。TMAO水平与EGFR负相关,并与尿素氮,ACR和DKD呈正相关(P <0.05)。逻辑回归分析表明,血清TMAO是DKD患者的独立风险因素之一(P <0.05)。在诊断模型中,DKD诊断的TMAO的AUROC为0.691。结论:血清TMAO水平升高与T2DM患者的DKD风险呈正相关,这可能是DKD的潜在生物标志物。
过去,已经开发了几种方法来预测信使RNA(mRNA)的单标签亚细胞定位。但是,仅设计有限的方法来预测mRNA的多标签亚细胞定位。此外,现有方法很慢,不能以转录组量表实现。在这项研究中,已经开发了一种快速可靠的方法来预测可以在基因组量表中实现的mRNA的多标签亚细胞定位。基于机器学习的方法是使用mRNA序列组成开发的,其中基于XGBoost的分类器在接收器操作员特征(AUROC)下达到了0.709(0.668 - 0.732)的平均面积。除了无对齐的方法外,我们还使用基准搜索技术开发了基于对齐的方法。最后,已经开发了一种结合XGBoost模型和基于基序的方法的混合技术,其平均AUROC为0.742(0.708 - 0.816)。我们的方法(MRSLPred)在性能和计算效率方面优于现有状态分类。已经开发了一种公开访问的Web服务器和独立工具,以促进研究人员(WebServer:https://webs.iiitd.edu.in/raghava/raghava/mrslpred/)。
由于其内在特性,DNA分子通常沿线性序列表示表现出远距离相互作用。因此,当建模DNA序列对于获得更准确的基于序列的推断很重要。最近为此目的开发了许多深度学习方法,但它们仍然遭受两个主要问题的困扰。首先,现有的方法只能handle短DNA片段,从而失去更长的范围相互作用。第二,当前方法需要大量的监督标签,同时错过序列中的大多数订单信息。因此,有必要开发有效的深度神经网络建模框架,以提取广泛的上下文信息,以实现基于序列的推理任务。我们的新框架(名为Revolution)将完整的DNA序列作为输入,无需任何凝结,可以对高达10KBP的DNA序列进行准确的预测。在变异效应预测中,我们的方法平均在49种人体组织中增加了接收器工作特征(AUROC)下的面积19.61%。革命还通过预测开放染色质区域(OCR)的平均为2.36%的AUROC来提高植物序列的作用。可以在https:// github上自由访问数据,模型和代码。com/wiedersehne/Revolution-dnapretraining。
睡眠是通过记录各种方式来评估一种复杂的生理过程。我们从14,000多个参与者中策划了一个大型的多模式睡眠记录的大型多摄影数据集。掌握了这个广泛的数据集,我们开发了SleepFM,这是第一个用于睡眠分析的多模式基础模型。我们表明,与标准的成对构造学习的表示相比,一种新颖的对比学习方法可以显着证明下游任务绩效。A logistic regression model trained on SleepFM 's learned embeddings out- performs an end-to-end trained convolutional neu- ral network (CNN) on sleep stage classification (macro AUROC 0.88 vs 0.72 and macro AUPRC 0.72 vs 0.48) and sleep disordered breathing de- tection (AUROC 0.85 vs 0.69 and AUPRC 0.77 vs 0.61)。值得注意的是,从90,000个候选者中检索模态剪辑对时,学到的嵌入在检索模态剪辑对方面具有48%的平均准确性。这项工作展示了整体多模式睡眠建模的价值,以完全捕获睡眠记录的丰富性。SleepFM是开源的,可在https://github.com/rthapa84/sleepfm- codebase上找到。
睡眠是通过记录各种方式来评估一种复杂的生理过程。我们从14,000多个参与者中策划了一个大型的多模式睡眠记录的大型多摄影数据集。掌握了这个广泛的数据集,我们开发了SleepFM,这是第一个用于睡眠分析的多模式基础模型。我们表明,与标准的成对构造学习的表示相比,一种新颖的对比学习方法可以显着证明下游任务绩效。A logistic regression model trained on SleepFM 's learned embeddings out- performs an end-to-end trained convolutional neu- ral network (CNN) on sleep stage classification (macro AUROC 0.88 vs 0.72 and macro AUPRC 0.72 vs 0.48) and sleep disordered breathing de- tection (AUROC 0.85 vs 0.69 and AUPRC 0.77 vs 0.61)。值得注意的是,从90,000名候选人中获取其他响应的记录剪辑,学到的嵌入在检索其他方式的记录剪辑方面达到了48%的平均准确性。这项工作展示了整体多模式睡眠模型的价值,以完全捕获睡眠记录的丰富性。SleepFM是开源的,可在https://github.com/rthapa84/sleepfm-codebase上找到。
左心室肥大是全因死亡和发病的重要独立危险因素,在心脏变化早期准确诊断具有重要的临床意义。心电图是初级保健中最方便、经济、无创的筛查方法。然而,实际的左心室肥大与诊断结果的符合率较低,因此人们对使用大数据和深度学习的算法的兴趣增加了。我们尝试使用大数据和深度学习算法来诊断左心室肥大,并旨在根据男性和女性的差异确认其诊断能力。这项回顾性研究使用了 2010 年 10 月至 2020 年 2 月在韩国原州延世大学原州 Severance 基督教医院获得的心电图。对左心室肥大的初步筛查进行了二元分类。实验中使用了三个数据集:男性、女性和整个数据集。二元分类的截止值定义为与筛选测试有意义的值(< 132 g/m 2 vs. 132 g/m 2 ,< 109 g/m 2 vs. 109 g/m 2 )。分类任务使用了六种类型的输入。我们试图确定心电图是否具有对左心室肥大诊断的预测能力。对于整个数据集,该模型的受试者工作特征 (AUROC) 曲线下面积为 0.836(95% CI,0.833–838),灵敏度为 78.37%(95% CI,76.79–79.95)。对于男性数据集,AUROC 为 0.826(95% CI,0.822–830),灵敏度为 76.73%(95% CI,75.14–78.33)。对于女性数据集,AUROC 为 0.772(95% CI,0.769–775),灵敏度为 72.90%(95% CI,70.33–75.46)。我们的模型证实,左心室肥大可以在一定程度上通过心电图、人口统计学和心电图特征进行分类。特别是,我们构建了一个考虑性别差异的学习环境。因此,证实了男女之间的诊断能力差异。我们的模型将帮助疑似左心室肥大的患者以低成本接受筛查测试。此外,我们的
开发了一种优化的针对肝细胞癌 (HCC) 的甲基化下一代测序检测方法,可直接从尿液中发现与 HCC 相关的甲基化标记物,以进行 HCC 筛查。从 31 名非 HCC 和 30 名 HCC 患者的发现队列中分离的尿液无细胞 DNA (ucfDNA) 用于生物标志物发现,鉴定出 29 个具有差异甲基化区域 (DMR) 的基因。开发了甲基化特异性 qPCR (MSqPCR) 检测方法以验证对应于 8 个基因 (GRASP、CCND2、HOXA9、BMP4、VIM、EMX1、SFRP1 和 ECE) 的选定 DMR。使用存档的 ucfDNA,发现 HCC 患者和非 HCC 患者的 GRASP、HOXA9、BMP4 和 ECE1 的甲基化存在显著差异 (p < 0.05)。使用逻辑回归模型,在 87 名非 HCC 患者和 78 名 HCC 患者的独立训练队列中,将这四种标记物与之前报道的 GSTP1 和 RASSF1A 标记物作为 6 种标记物组合进行评估。6 种标记物组合与 AFP 的 AUROC 为 0.908(95% CI,0.8656–0.9252),显著高于单独使用 AFP(AUROC 0.841(95% CI,0.778–0.904),p = 0.0026)。应用后向选择方法,发现 4 种标记物组合与 6 种标记物组合的性能相似,AFP 的敏感性为 80%,而单独使用 AFP 的敏感性为 29.5%,特异性为 85%。这项研究支持甲基化跨肾 ucfDNA 在 HCC 筛查中的潜在应用。