类失衡。不平衡的数据集可以使机器学习模型偏向多数级别,从而影响了他们准确预测少数类别的能力[24]。数据不平衡的问题通常与错误分类的问题有关,在这些问题中,与多数类相比,少数类别往往会被错误分类[25]。可以通过减小或过度采样来减少问题,从而产生类平衡的数据。合成的少数群体过度采样技术(SMOTE)是一种非常流行的过采样方法,旨在改善随机的过度采样[26]。根据Batista等人[25],过度采样方法比未经少采样方法给出了更好的结果。当数据高度不平衡时,多数族裔和少数族裔之间的显着差异可以通过过度采样方法来处理。通过添加或删除数据集中的样本,可以解决不平衡的类分布问题[27]。
摘要:入侵检测系统(IDS)对于识别网络攻击并为每种风险采取适当的措施至关重要。机器学习(ML)技术的效率在存在无关的特征和阶级失衡的情况下被妥协。在这项研究中,提出了有效的数据预处理策略,以增强模型的普遍性。使用K-均值Smote解决类别的差异。之后,我们提供了一种混合特征选择方法,该方法结合了过滤器和包装器。此外,通过改变最佳特征子集来分析超参数调整的光梯度增强机(LGBM)。实验使用了数据集 - UNSW-NB15和CICIDS-2017,其精度分别为90.71%和99.98%。由于模型的透明度和概括性很大程度上取决于理解预测的每个组成部分,因此我们采用了可解释的人工智能(XAI)方法,Shapley添加说明(SHAP)来提高对预测结果的理解。
摘要:自闭症谱系障碍 (ASD) 与抑郁、焦虑、癫痫等疾病有关,因为它会影响个人的教育、社交和就业。由于诊断困难且无法治愈,因此目标是通过减轻症状来最大限度地发挥个人的能力,早期诊断在改善行为和语言发展方面发挥着作用。本文使用公平人工智能(特征工程、SMOTE、优化等)和深度学习方法对幼儿和成人的自闭症筛查分析。该分析考虑了传统的深度学习方法,如多层感知器 (MLP)、人工神经网络 (ANN)、卷积神经网络 (CNN) 和长短期记忆 (LSTM),并提出了两种混合深度学习模型,即带有粒子群优化 (PSO) 的 CNN-LSTM 和结合门控循环单元 (GRU-CNN) 的 CNN 模型。这些模型已经通过多种性能指标进行了验证,并且分析证实了所提出的模型比传统模型的性能更好。
在快速技术发展的时代,机器学习是包括健康在内的各个领域的一种重要方法。机器学习提供了解决方案来独立分析数据而无需监督,从而促进了疾病和临床决策的诊断。遇到的问题是健康数据的大量和分析复杂性需要有效的自动方法。本研究旨在通过文献综述方法回顾机器学习在诊断和预测疾病中的应用。分析方法是在各种机器学习算法上进行的,例如物流回归,随机森林,神经网络,K-Nearest邻居(KNN)和基于相关文章的支持向量机(SVM)。本研究机器学习的结果能够在早期诊断,疾病预测和健康数据分类中提供有效的解决方案,例如糖尿病,高血压,心脏病,肺癌,肾脏衰竭和阿尔茨海默氏症。应用诸如高参数调整和合成少数民族过度采样技术(SMOTE)之类的技术已被证明可以显着提高模型的性能。
此外,一些研究应用了集合技术来改善结果。参考[6]进行了几种ML算法的比较:逻辑回归,线性判别分析,k-neart邻居,决策树,支持向量机,Adaboost分类器,梯度增强分类器,随机森林分类器,随机森林分类器和额外的树分类器。使用PIMA印度糖尿病数据集和早期糖尿病风险预测数据集评估了这些算法。与两个数据集中的其他机器学习算法相比,整体机器学习算法提供了更好的分类精度。在其他研究[7]中,使用了决策树,SVM,随机森林,逻辑回归,KNN和各种集合技术。该研究采用了PIMA印度糖尿病数据集和203名来自孟加拉国的女性患者的样本。此外,采用了Smote和Adasyn方法来解决阶级不平衡问题。XGBoost分类器与Adasyn方法结合使用,得出的结果最佳,获得了81%的精度,F1系数为0.81,AUC为0.84。
摘要 - 这项研究探讨了大型量子限制的玻尔兹曼机器(QRBMS)的实现,QRBMS(QRBMS)是量子机器学习(QML)的关键功能,作为D-Wave Pegasus量子硬件上的生成模型,以解决入侵检测系统(IDS)中数据集中的数据集不平衡。通过利用Pegasus的增强连接性和计算功能,成功嵌入了具有120个可见和120个隐藏单元的QRBM,超过了默认嵌入工具的限制。QRBM合成了超过160万次攻击样本,达到了超过420万张记录的平衡数据集。使用传统平衡方法(例如Smote和Randomovers采样器)进行比较评估表明,QRBMS产生了高质量的合成样本,显着改善了不同分类器的检测率,精度,回忆和F 1分数。该研究强调了QRBM的可扩展性和效率,完成了毫秒的平衡任务。这些发现突出了QML和QRBM作为数据预处理中的下一代工具的变革潜力,为现代信息系统中的复杂计算挑战提供了强大的解决方案。
摘要摘要中风是一种以脑内血管破裂为特征的疾病,可导致脑损伤。当大脑的血液和必需营养素供应中断时,可能会出现各种症状。本研究的主要目标是使用机器学习和深度学习来预测早期发生脑中风的可能性。及时发现中风的各种警告信号可以显著降低中风的严重程度。本文对特征进行了全面的分析,以提高中风预测的有效性。从 Kaggle 网站上获取了一个可靠的中风预测数据集,以衡量所提算法的有效性。该数据集存在类别不平衡问题,这意味着负样本总数高于正样本总数。结果基于使用过采样技术创建的平衡数据集报告。这项提案的工作使用 Smote 和 Adasyn 来处理不平衡问题,以获得更好的评估指标。此外,与原始不平衡数据集和其他基准测试算法相比,使用 Adasyn 过采样利用平衡数据集的混合神经网络和随机森林 (NN-RF) 实现了 75% 的最高 F1 分数。
摘要。这项研究使用三种不同的机器学习算法来构建用于糖尿病预测的模型,并比较每个模型的准确性,这些算法是K最近的邻居(KNN),逻辑回归和特质梯度提升(XGBoost)。这项研究的目标是找到一种用于糖尿病预测的精确算法,这确实是为医生诊断糖尿病的导电性。以这种方式,患者可以按时获得适当的治疗。在构建模型之前,数据集是通过标准缩放和综合少数族裔过度采样(SMOTE)来进行处理的,以平衡类。然后,使用网格搜索简历来找到模型的最佳参数。最后,结果表明,KNN的精度为82%,其次是XGBoost的精度,为79.87%,而Lo-Cistic回归为75.5%。KNN算法的优点是,它仅考虑训练样本与新样本之间的距离,这些距离将在没有任何其他计算的情况下预测。结果,KNN在这三种算法中表现出了最佳性能。将来,本研究可以扩大数据集的大小并尝试更多参数,以便在糖尿病预测模型上获得更高的准确性。
这项纵向研究利用了FASA成人队列研究(FACS)的数据。该研究最初包括在伊朗FASA农村地区35-70岁的1018名参与者,并在5年后使用随机抽样进行了3,000名参与者的随访。在机器学习(ML)模型中总共包括160个变量,并使用特征缩放和单热编码进行数据处理。Ten supervised ML algorithms were utilized, namely logistic regression (LR), support vector machine (SVM), random forest (RF), Gaussian naive Bayes (GNB), linear discriminant analysis (LDA), k-nearest neighbors (KNN), gradient boosting machine (GBM), extreme gradient boosting (XGB), cat boost (CAT), and light Gra-streent Boosting Machine(LGBM)。超参数调整是使用超参数的各种组合来识别最佳模型的。合成少数民族过度抽样技术(SMOTE)用于平衡训练数据,并使用Shapley添加说明(SHAP)进行了特征选择。
摘要:这项研究旨在通过整合综合少数群体过度采样技术(SMOTE)-TOMEK技术来开发一种健壮的糖尿病分类方法,用于数据平衡并使我们以极端梯度增强(XGB)为导致的机器学习合奏作为元学习者。我们提出了一个集成模型,该模型将深度学习技术(例如双向长期记忆(Bilstm)和双向门控复发单元(BIGRU)与XGB分类器作为基础学习者。使用的数据包括PIMA印第安人糖尿病和伊拉克社会糖尿病数据集,这些数据集是通过缺少价值处理,重复,归一化以及Smote-Tomek在解决数据失衡方面处理的。XGB作为元学习者,通过降低偏差和方差成功地提高了模型的预测能力,从而导致了更准确,更健壮的分类。所提出的合奏模型可在所有测试的数据集上达到完美的精度,精度,召回,特异性和F1分数为100%。此方法表明,将集成学习技术与严格的预处理方法结合在一起可以显着改善糖尿病分类性能。