摘要 — 中风是脑血管的一种严重神经缺陷,当部分脑部血液供应不足或停止使脑细胞缺氧时就会发生。它会导致各种形式的身体失衡。它是全世界导致疾病和死亡的主要原因之一。20-25% 的中风幸存者有严重的损伤,这与死亡风险增加有关。及早识别众多中风警告信号可以预防中风。在本研究中,我们开发了一种基于集成学习的机器学习架构,能够分析中风患者数据集并准确预测和识别中风特征。首先,收集中风数据集,然后使用合成少数过采样技术 (SMOTE) 来平衡它。然后,我们实施了几种机器学习技术,例如决策树、朴素贝叶斯、K 最近邻、随机森林、极端梯度提升、多层感知器、Ada Boost 和我们提出的集成框架。在优化超参数后,我们提出的框架在所有机器学习分类器中表现出最高的准确率 (99.90%)。我们使用机器学习 (信息增益、相关性和缓解 F) 和统计特征选择技术将年龄、BMI、平均血糖水平、心脏病确定为重要的中风指标。使用 SHapley Additive exExplanations (SHAP) 方法来确定每个属性对模型结果的影响。我们相信我们提出的框架可以帮助医生和临床医生开处方并尽早发现潜在的中风。
摘要:研究人员已经提出了几种基于机器学习和数据挖掘技术的自动诊断系统来预测心力衰竭。然而,研究人员并没有密切关注预测心脏病患者的死亡率。为了解决这个问题,我们开发了一个用于预测心脏病患者死亡率的临床决策支持系统。为所提模型的实验目的收集的数据集包含 55 个特征,总共 368 个样本。我们发现数据集中的类别高度不平衡。为了避免机器学习模型中的偏差问题,我们使用了合成少数过采样技术 (SMOTE)。在平衡数据集中的类别后,新提出的系统采用 χ2 统计模型对数据集中的特征进行排序。排名最高的特征被输入到优化的随机森林 (RF) 模型中进行分类。使用网格搜索算法优化 RF 分类器的超参数。使用多种评估指标验证了新提出的模型 ( χ 2 _RF) 的性能,包括准确度、灵敏度、特异性、F1 分数和受试者工作特征 (ROC) 曲线。仅使用数据集中的 10 个特征,提出的模型 χ 2 _RF 就实现了 94.59% 的最高准确度。提出的模型 χ 2 _RF 将标准 RF 模型的性能提高了 5.5%。此外,还将提出的模型 χ 2 _RF 与其他最先进的机器学习模型进行了比较。实验结果表明,新提出的决策支持系统优于使用相同特征选择模块 ( χ 2 ) 的其他机器学习系统。
卷积神经网络13证明了蛋白质序列可以在DTI预测中提供有用的信息。Mahmud等人开发了iDTi-CSsmoteB网络服务器,使用XGBoost和过采样技术,基于PubChem指纹和各种蛋白质序列特征预测DTI。14然而,上述方法的数据质量并不令人满意,因为阴性数据是任意选择的。其他几项研究也这样做了。15-17其中一些使用随机非阳性DTI作为阴性样本。然而,非阳性DTI并不一定是阴性的,因为它们还没有经过验证。其中一些在验证后可能是阳性的。因此,使用高质量数据构建预测模型具有重要意义。在本研究中,我们开发了一个机器学习模型,使用化学结构和蛋白质序列作为特征来预测DTI。采用流水线技术封装特征数据标准化、SMOTE采样过程和机器学习估计器,以避免过度拟合并提高模型泛化能力。整个工作流程如图1所示。简而言之,从各种来源收集了超过40 000个具有解离常数(kd)值的DTI。用PaDEL-Descriptor和RDKit计算五种分子指纹和描述符。通过PSI-Blast和POSSUM工具包提取蛋白质序列特征。用5种机器学习方法和6种特征表示方法建立了30个DTI预测模型,其中Morgan-PSSM-SVM模型(MPSM-DTI)被验证为最佳模型。在案例研究中,MPSM-DTI模型在DTI预测中表现出了令人满意的能力。
背景:全球约 7% 的人口患有先天性血红蛋白疾病,每年有超过 300,000 例 β-地中海贫血新病例。在低收入地区,诊断成本高昂且不准确,通常依赖于全血细胞计数 (CBC) 测试。本研究采用机器学习 (ML) 根据性别和 CBC 对 β-地中海贫血特征进行分类,探索对无症状携带者和非携带者进行分组的影响。方法:数据集包括来自斯里兰卡的 288 名疑似 β-地中海贫血患者。使用 11 个判别公式和 9 个 ML 模型对其进行分类。使用马哈拉诺比斯距离去除异常值,并使用合成少数过采样技术 (SMOTE) 和 SMOTE- 名义连续 (NC) 进行重采样。Mann-Whitney U 检验处理特征提取和类别分组。使用八个标准评估 ML 性能。结果:Ehsani 公式通过将沉默携带者和非携带者分组,实现了 0.66 的受试者工作特征曲线下面积 (ROC-AUC)。未进行特征提取的卷积神经网络 (CNN) 表现出更好的性能,准确率为 0.85、灵敏度为 0.8、特异性为 0.86,ROC-AUC 为 0.95/0.93(微观/宏观)。即使没有预处理,性能也能保持。结论:在使用性别和 CBC 特征对 β - 地中海贫血进行分类时,ML 模型优于经典判别公式。更大的数据集可以增强 ML 模型的泛化能力和特征提取的影响。将沉默携带者和非携带者分组可改善 ML 结果,尤其是在重新采样的情况下。就可用特征而言,沉默携带者与非携带者无法区分。
摘要 - 作为银行体系的核心业务是借入货币,然后将其取回,贷款违约是商业银行最关键的问题之一。随着数据分析和人工智能,从历史数据中提取有价值的信息,以降低其损失,银行将能够对客户进行分类并预测信贷还款的可能性,而不是依靠传统方法。由于大多数实际的研究都集中在个人的贷款上,因此本文的新颖性是处理公司贷款。其主要目标是提出一个模型,使用选定的机器学习算法解决问题,以将公司分为两个类,以便能够预测贷款违约者。本文深入研究公司贷款默认预测模型(CLD PM),该模型旨在预测公司中的贷款违约。该模型以CRIRP-DM流程为基础,从理解公司要求并实施分类技术开始。数据采集和制备阶段对于测试所选算法至关重要,该算法涉及逻辑回归,决策树,支持向量机,随机森林,XGBoost和Adaboost。使用各种指标,即准确性,精度,召回,F1分数和AUC评估该模型的功效。随后,使用摩洛哥房地产公司的实际贷款数据集对该模型进行审查。调查结果表明,随机森林和XGBoost算法的表现优于其他算法,每个度量标准都超过90%。这是通过将SMOTE作为一种过采样方法来完成的,鉴于数据集的不平衡。此外,当专注于财务报表时,选择了五个最重要的财务比率和该公司的年龄,随机森林擅长预测结果良好的违约者:准确性为90%,精度为75%,召回50%,F1得分为60%,AUC为77%。
摘要背景:银行贷款预测是银行业的重要问题。通过使用历史数据并应用预测模型,银行可以识别模式并对贷款违约做出准确的预测。这可以帮助他们做出有关贷款的明智决定,并最大程度地减少损失。目标:研究影响贷款并使用机器学习算法方法预测银行贷款的重要参数:CRISP-DM过程是一种用于开发预测模型的全面且结构化的方法。通过遵循此过程,该研究可以确保采取所有必要的步骤来开发个人贷款的准确和可靠的预测模型。使用三种机器学习算法,例如决策树,幼稚的贝叶斯和支持向量机可以为开发模型提供,并使研究能够选择最佳。结果:结果表明,J48决策树算法达到了98.85%的最高精度,其次是SVM算法,精度为94.01%,而天真的贝叶斯算法的精度为89.53%。在精确,召回和F量表方面,所有三种算法都达到了相似的性能,值范围从0.895到0.989。结论:预测银行贷款的不同机器学习算法的性能表明,根据其高准确性,平均绝对错误和快速培训时间,J48 DT是开发银行贷款预测指标的最合适算法。关键字:银行贷款,Smote,幼稚的贝叶斯,支持向量机,决策树为了提高模型的准确性和适用性,可能有必要收集其他数据或完善特征选择过程以识别最相关的属性。
摘要:这项研究着眼于与信用卡盗窃有关的严重问题,并评估机器学习方法如何检测并停止它。更复杂的欺诈是由于互联网交易的增加而造成的,危害了消费者和金融机构。信用卡日益增长的使用需要快速开发有效的欺诈检测系统,这些系统可以识别并停止欺诈性交易。这项研究着眼于一系列机器学习方法,从更常规的决策树或逻辑回归到更复杂的方法,例如支持向量算法,具有人工智能的神经网络,随机生成的森林和混合模型。我们分析了每种方法的优点和缺点,重点是其召回,准确性,精度和能力,以使用不平衡的数据集管理情况。可以通过将混合方法与合奏学习技术相结合,可以提高检测率并降低假阳性。合成的少数群体过度采样技术(SMOTE)提高了训练机学习模型的可靠性,并成功解决了类不平衡。这项研究强调了实时分析数据并采用最先进的技术(例如大数据分析和深度培训),以跟上新的欺诈策略是多么重要。行业 - academia的合作以及该部门正在进行的研发对于成功部署欺诈检测技术至关重要。这项研究强调了对最先进的机器学习方法的紧迫需求,以防止信用卡盗窃。通过增强金融机构识别欺诈的能力,这些技术发展将保护和维护消费者对在线交易的信任。改善了研究结论的目标,改善了所有利益相关者的欺诈检测系统和更安全的经济环境。
* 通讯作者:电子邮件:mohammed.guhdar@uoz.edu.krd 摘要:大多数中风都是由大脑和心脏血液供应意外受限引起的。提前意识到许多中风警告信号可以降低中风的严重程度。如果大脑某部分的血液突然停止流动,就可能导致中风。在本研究中,我们提出了一种使用逻辑回归 (LR) 算法预测中风疾病早期开始的策略。为了提高模型的性能,将包括 SMOTE、特征选择和异常值处理在内的预处理技术应用于数据集。该方法有助于实现类别分布的平衡,识别和删除不重要的特征并处理异常值。血压、体重、心脏状况、平均血糖水平、吸烟状况、既往中风和年龄增加。随着大脑神经元逐渐死亡,就会发生损伤,具体取决于大脑哪个区域受到血液供应减少的影响。早期诊断症状对于预测中风和支持健康的生活方式非常有帮助。此外,我们使用逻辑回归(LR)进行了实验,并将其与使用相同机器学习模型(即逻辑回归(LR))和相同数据集的其他一些研究进行了比较。结果表明,我们的方法成功获得了最高的 F1 得分和曲线下面积(AUC)得分,与同一领域的其他五项研究相比,这可以成为中风疾病预测的成功工具,准确率为 86%。中风预测模型具有良好的应用前景,因此,对于医学和健康科学领域的学者和从业者来说仍然具有重要意义。关键词:数据分析信息学、逻辑回归(LR)、中风机器学习、中风预测引言
背景:脑结核 (TB) 的表现常常与原发性和转移性脑肿瘤以及其他脑部感染性病变相似,因此很难诊断。它是造成严重后遗症和死亡的罪魁祸首,尤其是在发展中国家。需要一种快速准确的诊断方法来防止因延迟或错误诊断而导致的惨淡后果。我们的目标是开发一种分类器,利用机器学习帮助脑 MRI 上呈现的各种放射学特征将脑结核与脑肿瘤和其他感染区分开来。方法:纳入巴基斯坦卡拉奇阿迦汗大学医院的 72 例脑结核病和 146 例非结核病(包括脑膜瘤、神经胶质瘤、脑转移、真菌和细菌性脑感染),并将其分为训练数据集和测试数据集。使用相关矩阵选择特征;并包括从脑 MRI 记录的放射学特征,即环状增强、均匀增强、基底脑膜增强、脑膜增强(非基底)、均匀扩散受限、远端梗塞、脑积水、双侧多灶性病变、单侧多灶性病变和同一叶内多个病变,以及年龄和性别。在应用合成少数过采样技术 (SMOTE)、SMOTE-Tomek 链接、编辑最近邻 (ENN) SMOTE-ENN 和自适应合成 (ADASYN) 技术平衡数据集后,使用两个模型测试分类器准确性:逻辑回归和随机森林。结果:使用逻辑回归以及 SMOTE+TOMEK 获得最高精度 (90.9%),曲线下面积为 95.4%,F1 得分为 92.8%。将 SMOTE+TOMEK 应用于 Logistic 回归模型后,准确率提高了 6.81%。结论:机器学习在临床决策支持系统中显示出良好的作用,可以快速、无创地区分脑肿瘤和感染。这些分类器可以作为临床设置中使用的移动应用程序的基础。应采用采样技术来提高分类器的性能。关键词:脑肿瘤;脑结核;神经影像学;机器学习
1 al-mustaqbal大学,伊拉克巴比尔2计算机中心巴比伦大学,巴比尔,伊拉克3通信工程伊斯兰大学,黎巴嫩黎巴嫩4号,黎巴嫩4艾尔卡菲尔大学,伊拉克纳贾夫,伊拉克摘要。这项研究的动机源于确定与起诉电子金融犯罪有关的当代挑战。重点介绍了持续的努力来识别和解决信用卡欺诈和欺诈,因为金融业有许多信用卡欺诈问题。传统方法不再能够跟上追踪信用卡用户行为并检测可疑案例的现代方法。人工智能技术提供了有希望的解决方案,以快速检测和防止信用卡用户将来的欺诈。数据集受金融交易中的不平衡影响,本研究旨在使用对抗性算法技术来解决财务欺诈数据集的不平衡,并将它们与科学文献中最常用的方法进行比较。结果表明,允许多个研究范围的范围,包括对群体的功能,并在范围内保持良好的范围,并既一致性又一致,并且是一致的范围。帮助使数据集更接近金融市场和银行的实时数据。本研究提出了一个由三种机器学习算法组成的混合机器学习模型:决策树,逻辑回归和天真的贝叶斯算法,并计算出诸如准确性,特异性,精度和F1分数之类的性能指标。实验结果显示欺诈检测的准确性不同。使用SMOTE方法的模型测试记录的精度为98.1%,F评分为98.3%。另一方面,过采样和在抽样测试方法下显示相似的性能,两种方法的精度为94.3和95.3,F-评分分别为94.7和95.1。最后,GAN方法表现出色,获得了99.9%的测试分数和准确性,以及出色的精度,召回和F1分数。因此,我们得出结论,GAN方法能够平衡数据集,这反过来反映了模型在训练中的性能以及测试时预测的准确性。历史交易分析确定行为模式并适应不断发展的欺诈技术。这种方法可以增强交易安全性,并防止因欺诈而导致的潜在财务损失。此贡献使金融机构和公司可以主动打击欺诈活动。