世界卫生组织表示,脑瘤是最严重的疾病之一,因为它影响着全世界大多数人,包括儿童。开发一种在早期阶段识别脑瘤的系统将有助于挽救许多人的生命。人们已经进行了大量探索来开发一种识别脑瘤的系统;然而,这个系统应该得到改进,提高其准确性。因此,特征选择方法有望改进该系统。机器学习 (ML) 中特征选择技术的主要目的是选择一组合适的特征。包装器方法用于过滤。这些方法分为四类:前向选择、后向消除、穷举特征选择和递归特征消除。近年来,脑瘤影响了越来越多的人。脑瘤影响大脑,有时会扩散到其他部位。此外,还有 55 个特征被集中关注,如图像粗糙度、一致性或能量,以及附近的同质性被移除,以显示方法之间的质量差异。目标是寻找使用特征选择技术构成大问题的特征的可能性,该问题使用 bruta 和遗传学来解决。基于随机森林的 Boruta 特征选择算法。在本文中,我们介绍了一种称为 GenBoruta 的混合特征选择技术。GenBoruta 是一种用于查找所有相关变量的混合特征选择算法。它迭代地消除可测量测试证明比随机探测不那么重要的特征。与前向选择、后向消除、Boruta 和遗传等现有技术相比,所提出的技术表现良好。
摘要。基因表达分类是生物信息学中的一项关键但具有挑战性的任务,这主要是由于高度数据的高维度和过度拟合的风险。为了弥合这一差距,我们提出了Bolimes,这是一种新型特征选择算法,旨在通过系统地重新发现特征子集来增强基因表达分类。与仅依赖统计排名或分类特定选择的常规方法不同,我们将Boruta的稳健性与石灰的可解释性相结合,从而确保只保留最相关和最相关的基因。Bolimes第一位使用Boruta通过比较每个特征与其持有的对应物进行比较,从而释放了非信息性基因,从而保留了有价值的信息。然后,它使用石灰根据其对分类器的局部重要性来对剩余基因进行排名。最后,迭代分类评估通过选择最大化预测精度的基因数来确定最佳特征子集。通过将详尽的特征选择与可解释性驱动的重新结合结合,我们的解决方案有效地平衡了维数的降低与高分类性能,从而为高维基因表达分析提供了强大的解决方案。
摘要。帕金森病 (PD) 是一种神经退行性疾病,其特征是大脑中多巴胺产生细胞的丧失。产生多巴胺的脑细胞的破坏会导致帕金森病,多巴胺是一种使脑细胞相互连接的化学物质。控制力、适应性和运动速度都由大脑中产生多巴胺的细胞控制。研究人员一直在研究尽快识别疾病早期出现的非运动症状的技术,以减缓疾病的进展。本研究提出了一种基于机器学习的帕金森病检测方法。所提出的检测技术采用了特征选择和分类技术。特征选择过程采用了 Boruta、递归特征消除 (RFE) 和随机森林 (RF) 分类器。检测帕金森病考虑了四种分类算法,即梯度提升、极端梯度提升、装袋和额外树分类器。我们发现,采用递归特征消除的 Bagging 比其他方法表现更好。帕金森症诊断中最低数量的语音特征的准确率达到 82.35%。
本研究旨在鉴定水中的影响参数和重金属,并评估巴基斯坦三个地区高山冰川湖和河流的水质分类。为此,使用九个水质参数(CD,CR,PB,Ni,Fe,AS和TDS)中的Mg/L,pH,EC µS/CM用于计算水质指数(WQI)。Boruta方法用于识别与水质类别相关的影响参数。此外,我们采用了监督的机器学习模型,包括决策树,最近的邻居方法,神经网络模型(多层感知),支持向量机和随机森林,以预测和验证水质类别。所有算法的性能通过精度度量评估。验证集的准确率为决策树模型的精度为83%,K-Neartheniber方法为75%,神经网络为83%,支持向量机器为88%,随机森林模型为88%。观察到的位置的水质评估指定了重要的见解,表明49%的位置表现出低水质量。根据当前的研究,政府应通过实施适当的措施设计的水监测系统和创新技术来解决巴基斯坦受影响地区水质的问题。
背景:胃肠道出血 (GIB) 是急性心肌梗死 (AMI) 患者中一种严重且可能危及生命的并发症,严重影响住院期间的预后。早期识别高危患者对于减少并发症、改善结果和指导临床决策至关重要。目的:本研究旨在开发和验证基于机器学习 (ML) 的模型,用于预测 AMI 患者住院期间的 GIB,识别关键风险因素,并评估该模型在风险分层和决策支持方面的临床适用性。方法:进行了一项多中心回顾性队列研究,包括广东医科大学附属医院 1910 名 AMI 患者(2005-2024 年)。根据入院日期将患者分为训练组(n=1575)和测试组(n=335)。为了进行外部验证,1746 名 AMI 患者被纳入公开的 MIMIC-IV(重症监护 IV 医疗信息集市)数据库。倾向得分匹配根据人口统计学特征进行了调整,而 Boruta 算法则确定了关键预测因素。共使用 10 倍交叉验证训练了 7 种 ML 算法——逻辑回归、k 最近邻、支持向量机、决策树、随机森林 (RF)、极端梯度提升和神经网络。对模型的受试者工作特征曲线下面积、准确度、灵敏度、特异性、召回率、F 1 分数和决策曲线分析进行了评估。Shapley 加性解释分析对变量重要性进行了排名。Kaplan-Meier 生存分析评估了 GIB 对短期生存的影响。多元逻辑回归在调整临床变量后评估了冠心病 (CHD) 与住院 GIB 之间的关系。结果:RF 模型优于其他 ML 模型,在训练队列中实现 0.77 的受试者工作特征曲线下面积,在测试队列中实现 0.77,在验证队列中实现 0.75。关键预测因素包括红细胞计数、血红蛋白、最大肌红蛋白、血细胞比容、CHD 和其他变量,所有这些变量都与 GIB 风险密切相关。决策曲线分析表明 RF 模型在早期风险分层方面的临床应用。Kaplan-Meier 生存分析表明,有或无 GIB 的 AMI 患者的 7 天和 15 天生存率没有显著差异(7 天生存率 P =.83,15 天生存率 P =.87)。多变量逻辑回归表明 CHD 是独立危险因素
