摘要 — 中风是脑血管的一种严重神经缺陷,当部分脑部血液供应不足或停止使脑细胞缺氧时就会发生。它会导致各种形式的身体失衡。它是全世界导致疾病和死亡的主要原因之一。20-25% 的中风幸存者有严重的损伤,这与死亡风险增加有关。及早识别众多中风警告信号可以预防中风。在本研究中,我们开发了一种基于集成学习的机器学习架构,能够分析中风患者数据集并准确预测和识别中风特征。首先,收集中风数据集,然后使用合成少数过采样技术 (SMOTE) 来平衡它。然后,我们实施了几种机器学习技术,例如决策树、朴素贝叶斯、K 最近邻、随机森林、极端梯度提升、多层感知器、Ada Boost 和我们提出的集成框架。在优化超参数后,我们提出的框架在所有机器学习分类器中表现出最高的准确率 (99.90%)。我们使用机器学习 (信息增益、相关性和缓解 F) 和统计特征选择技术将年龄、BMI、平均血糖水平、心脏病确定为重要的中风指标。使用 SHapley Additive exExplanations (SHAP) 方法来确定每个属性对模型结果的影响。我们相信我们提出的框架可以帮助医生和临床医生开处方并尽早发现潜在的中风。
本研究引入了一种创新的机器学习框架,以提高糖尿病预测准确性和模型可解释性。该方法首先通过链式方程 (MICE) 进行多次插补,以解决缺失数据并确保完整的数据集以供分析。为了解决类别不平衡问题,采用了合成少数过采样技术 (SMOTE)。使用 Z 分数异常值检测来去除异常值,进一步提高模型的稳健性。结合灰狼优化器 (GWO) 和方差分析的混合特征选择方法混合 GWAN 优化了相关特征的选择,平衡了预测能力和模型简单性。该框架的核心是自适应增强梯度增强机 (ADGB),这是一种融合了 AdaBoost 和梯度增强机 (GBM) 优势的集成学习模型。通过 Hyperband 算法进行超参数优化可以对模型进行微调,实现 97.84% 的高预测准确率。这种综合方法不仅提高了准确性,还提高了预测模型的精度、召回率和 F1 分数。通过整合这些先进技术,该框架在早期糖尿病诊断中展现出巨大潜力,强调了集成方法在医疗数据分析中的重要性以及开发可靠诊断工具的准确、可解释模型的必要性。关键词:灰狼优化器、梯度提升机、合成少数群体、公共健康 1. 介绍
摘要:研究人员已经提出了几种基于机器学习和数据挖掘技术的自动诊断系统来预测心力衰竭。然而,研究人员并没有密切关注预测心脏病患者的死亡率。为了解决这个问题,我们开发了一个用于预测心脏病患者死亡率的临床决策支持系统。为所提模型的实验目的收集的数据集包含 55 个特征,总共 368 个样本。我们发现数据集中的类别高度不平衡。为了避免机器学习模型中的偏差问题,我们使用了合成少数过采样技术 (SMOTE)。在平衡数据集中的类别后,新提出的系统采用 χ2 统计模型对数据集中的特征进行排序。排名最高的特征被输入到优化的随机森林 (RF) 模型中进行分类。使用网格搜索算法优化 RF 分类器的超参数。使用多种评估指标验证了新提出的模型 ( χ 2 _RF) 的性能,包括准确度、灵敏度、特异性、F1 分数和受试者工作特征 (ROC) 曲线。仅使用数据集中的 10 个特征,提出的模型 χ 2 _RF 就实现了 94.59% 的最高准确度。提出的模型 χ 2 _RF 将标准 RF 模型的性能提高了 5.5%。此外,还将提出的模型 χ 2 _RF 与其他最先进的机器学习模型进行了比较。实验结果表明,新提出的决策支持系统优于使用相同特征选择模块 ( χ 2 ) 的其他机器学习系统。
背景:全球约 7% 的人口患有先天性血红蛋白疾病,每年有超过 300,000 例 β-地中海贫血新病例。在低收入地区,诊断成本高昂且不准确,通常依赖于全血细胞计数 (CBC) 测试。本研究采用机器学习 (ML) 根据性别和 CBC 对 β-地中海贫血特征进行分类,探索对无症状携带者和非携带者进行分组的影响。方法:数据集包括来自斯里兰卡的 288 名疑似 β-地中海贫血患者。使用 11 个判别公式和 9 个 ML 模型对其进行分类。使用马哈拉诺比斯距离去除异常值,并使用合成少数过采样技术 (SMOTE) 和 SMOTE- 名义连续 (NC) 进行重采样。Mann-Whitney U 检验处理特征提取和类别分组。使用八个标准评估 ML 性能。结果:Ehsani 公式通过将沉默携带者和非携带者分组,实现了 0.66 的受试者工作特征曲线下面积 (ROC-AUC)。未进行特征提取的卷积神经网络 (CNN) 表现出更好的性能,准确率为 0.85、灵敏度为 0.8、特异性为 0.86,ROC-AUC 为 0.95/0.93(微观/宏观)。即使没有预处理,性能也能保持。结论:在使用性别和 CBC 特征对 β - 地中海贫血进行分类时,ML 模型优于经典判别公式。更大的数据集可以增强 ML 模型的泛化能力和特征提取的影响。将沉默携带者和非携带者分组可改善 ML 结果,尤其是在重新采样的情况下。就可用特征而言,沉默携带者与非携带者无法区分。
摘要 - 情绪分析在理解公众情绪方面起着至关重要的作用,尤其是在数字通信领域,因为每天都会产生大量的文本数据。本研究深入探讨了情绪分类模型,即朴素贝叶斯分类器 (NBC) 和支持向量机 (SVM),在情绪分析任务中经常遇到的不平衡数据集中的有效性。采用比较分析方法,以来自在线平台的机器人酒店评论数据集作为评估的基础。NBC 和 SVM 模型都经过训练和评估,使用和不使用合成少数过采样技术 (SMOTE),以纠正类别不平衡。性能评估依赖于关键指标,包括准确度、召回率、精确度、f 测量和曲线下面积 (AUC) 来衡量模型的有效性。研究结果表明,SVM 在准确率(SVM:76.88%,NBC:67.43%)、精确率(SVM:92.03%,NBC:86.87%)、召回率(SVM:58.88%,NBC:41.00%)、f 值(SVM:71.78%,NBC:55.63%)和 AUC(SVM:0.907,NBC:0.961)方面均优于 NBC。引入 SMOTE 后,两种模型的性能均显著提升,尤其是在解决类别不平衡问题方面。虽然 NBC 在精确率和召回率指标上表现更为均衡,但 SVM 在情感分类任务中展现出更高的准确率和预测能力。这些发现强调了算法选择和预处理技术在优化情感分析性能方面的关键作用,从而为从业者和研究人员提供了宝贵的见解。
摘要 目的比较基于机器学习理论的6种模型的预测效果,为预测2型糖尿病(T2DM)风险提供方法学参考。 研究地点与对象 本研究基于2016—2018年东莞市居民慢性病危险因素监测数据。各监测点采用多阶段整群随机抽样的方法,最终抽取4157人。在初始人群中剔除缺失数据超过20%的个体,最终纳入4106人。采用设计K最近邻算法和合成少数过抽样技术对数据进行处理。采用单因素分析对变量进行初步筛选。采用10倍交叉验证对部分模型参数进行优化。以准确度、精确度、召回率和受试者工作特征曲线下面积(AUC)评价模型的预测效果,采用Delong检验分析各模型AUC值的差异。结果平衡数据后样本量增加至8013例,其中2型糖尿病患者4023例,对照组3990例。六种模型的比较结果显示,反向传播神经网络模型的预测效果最好,准确率、准确度、召回率分别为93.7%、94.6%、92.8%,AUC值为0.977,其次是logistic模型、支持向量机模型、CART决策树模型和C4.5决策树模型。深度神经网络的预测性能最差,准确率、准确度、召回率分别为84.5%、86.1%、82.9%,AUC值为0.845。结论本研究构建了6类2型糖尿病风险预测模型,并基于各项指标比较了这6种模型的预测效果,结果显示,基于所选数据集的反向传播神经网络的预测效果最好。
背景:脑结核 (TB) 的表现常常与原发性和转移性脑肿瘤以及其他脑部感染性病变相似,因此很难诊断。它是造成严重后遗症和死亡的罪魁祸首,尤其是在发展中国家。需要一种快速准确的诊断方法来防止因延迟或错误诊断而导致的惨淡后果。我们的目标是开发一种分类器,利用机器学习帮助脑 MRI 上呈现的各种放射学特征将脑结核与脑肿瘤和其他感染区分开来。方法:纳入巴基斯坦卡拉奇阿迦汗大学医院的 72 例脑结核病和 146 例非结核病(包括脑膜瘤、神经胶质瘤、脑转移、真菌和细菌性脑感染),并将其分为训练数据集和测试数据集。使用相关矩阵选择特征;并包括从脑 MRI 记录的放射学特征,即环状增强、均匀增强、基底脑膜增强、脑膜增强(非基底)、均匀扩散受限、远端梗塞、脑积水、双侧多灶性病变、单侧多灶性病变和同一叶内多个病变,以及年龄和性别。在应用合成少数过采样技术 (SMOTE)、SMOTE-Tomek 链接、编辑最近邻 (ENN) SMOTE-ENN 和自适应合成 (ADASYN) 技术平衡数据集后,使用两个模型测试分类器准确性:逻辑回归和随机森林。结果:使用逻辑回归以及 SMOTE+TOMEK 获得最高精度 (90.9%),曲线下面积为 95.4%,F1 得分为 92.8%。将 SMOTE+TOMEK 应用于 Logistic 回归模型后,准确率提高了 6.81%。结论:机器学习在临床决策支持系统中显示出良好的作用,可以快速、无创地区分脑肿瘤和感染。这些分类器可以作为临床设置中使用的移动应用程序的基础。应采用采样技术来提高分类器的性能。关键词:脑肿瘤;脑结核;神经影像学;机器学习
背景:及时准确的结果预测在指导急性缺血性卒中的临床决策中起着至关重要的作用。急性期后的早期病情恶化和严重程度是长期结果的决定因素。因此,预测早期结果在急性卒中管理中至关重要。然而,解释预测并将其转化为临床可解释的概念与预测本身一样重要。目的:这项工作专注于机器学习模型分析在预测缺血性卒中早期结果中的应用,并使用模型解释技巧来解释结果。方法:招募 2009 年在长庚医疗系统卒中登记处 (SRICHS) 登记的急性缺血性卒中患者,对两个主要结果进行机器学习预测:出院时的改良 Rankin 量表 (mRS) 和住院期间病情恶化。我们将 4 种机器学习模型,即支持向量机 (SVM)、随机森林 (RF)、轻梯度提升机 (LGBM) 和深度神经网络 (DNN) 与受试者工作特征曲线的曲线下面积 (AUC) 进行了比较。此外,3 种重采样方法,即随机欠采样(RUS)、随机过采样和合成少数过采样技术,处理了不平衡数据。模型基于特征重要性排序和 SHapley 加性解释(SHAP)进行解释。结果:RF 在两种结果中均表现良好(出院 mRS:平均 AUC 0.829,SD 0.018;院内恶化:原始数据上的平均 AUC 0.710,SD 0.023,对于不平衡数据,使用 RUS 重采样数据上的平均 AUC 0.728,SD 0.036)。此外,DNN 在预测未重采样数据的院内恶化方面优于其他模型(平均 AUC 0.732,SD 0.064)。总体而言,重采样对使用不平衡数据预测院内恶化的模型性能的改善有限。从美国国立卫生研究院卒中量表 (NIHSS) 获得的特征、白细胞分类计数和年龄是预测出院 mRS 的关键特征。相反,NIHSS 总分、初始血压、是否患有糖尿病以及血象特征是预测住院期间病情恶化的最重要特征。SHAP 摘要描述了特征值对每个结果预测的影响。结论:机器学习模型在预测早期卒中结果方面是可行的。丰富的特征库可以提高模型性能。初始神经系统水平和年龄决定了出院时的活动独立性。此外,