摘要 脑卒中是一种脑部血液突然停止流动,脑细胞因缺氧和营养物质不足而死亡的疾病。脑卒中与主要与当今生活方式相关的风险因素有关,包括高“血糖水平、心脏病、肥胖和糖尿病”等代谢综合征。本研究使用机器学习算法开发了脑卒中预测模型:“逻辑回归 (LR)、随机森林 (RF) 和 K-最近邻 (KNN)”。上述研究所需的数据集来自 Harvard Dataverse 存储库。该数据集包含“临床、生理、行为、人口统计和历史数据”。在这方面,将通过采用过采样技术(包括“SMOTE、ADASYN 和 ROSE”)来处理类别不平衡问题。本文提出了一种新的混合机器学习模型,将 ADASYN 与随机森林相结合,称为 ADASYN-RF,其中 ADASYN 将对不平衡的数据集进行重新采样,然后将随机森林应用于重新采样的数据。此外,还采用了其他机器学习模型和过采样技术进行比较。令人惊讶的是,ADASYN-RF 模型能够达到本文提到的 99% 的最高检测准确率,证明了其在中风预测方面的有效性。因此,该方法为中风的临床诊断提供了一种廉价而精确的工具。
此外,一些研究应用了集合技术来改善结果。参考[6]进行了几种ML算法的比较:逻辑回归,线性判别分析,k-neart邻居,决策树,支持向量机,Adaboost分类器,梯度增强分类器,随机森林分类器,随机森林分类器和额外的树分类器。使用PIMA印度糖尿病数据集和早期糖尿病风险预测数据集评估了这些算法。与两个数据集中的其他机器学习算法相比,整体机器学习算法提供了更好的分类精度。在其他研究[7]中,使用了决策树,SVM,随机森林,逻辑回归,KNN和各种集合技术。该研究采用了PIMA印度糖尿病数据集和203名来自孟加拉国的女性患者的样本。此外,采用了Smote和Adasyn方法来解决阶级不平衡问题。XGBoost分类器与Adasyn方法结合使用,得出的结果最佳,获得了81%的精度,F1系数为0.81,AUC为0.84。
摘要摘要中风是一种以脑内血管破裂为特征的疾病,可导致脑损伤。当大脑的血液和必需营养素供应中断时,可能会出现各种症状。本研究的主要目标是使用机器学习和深度学习来预测早期发生脑中风的可能性。及时发现中风的各种警告信号可以显著降低中风的严重程度。本文对特征进行了全面的分析,以提高中风预测的有效性。从 Kaggle 网站上获取了一个可靠的中风预测数据集,以衡量所提算法的有效性。该数据集存在类别不平衡问题,这意味着负样本总数高于正样本总数。结果基于使用过采样技术创建的平衡数据集报告。这项提案的工作使用 Smote 和 Adasyn 来处理不平衡问题,以获得更好的评估指标。此外,与原始不平衡数据集和其他基准测试算法相比,使用 Adasyn 过采样利用平衡数据集的混合神经网络和随机森林 (NN-RF) 实现了 75% 的最高 F1 分数。
摘要。银行贷款违约是可能影响银行业务的重要问题之一。为了避免这样的问题,银行需要分析大量数据,因此机器学习(ML)用于帮助做出准确的贷款批准决策。但是,在任何数据集中,贷款违约的存在都很小,这可能导致阶级失衡和预测偏见。另一个问题是存在可能导致预测模型的无关变量。因此,本研究的目的是通过将机器学习分类器与功能工程和数据集进行重新采样来克服这两个问题,以产生准确的预测。因此,本研究评估了四个机器学习分类器的性能,即K-Nearest邻居(KNN),逻辑回归(LR),决策树(DT)和随机森林(RF),在贷款俱乐部的公共默认贷款数据集上。应用数据预处理后,提出的方法使用该功能工程来根据特征相关性消除无关的功能。然后,将自适应合成抽样(ADASYN)应用于管理类别问题。实验结果表明了模型过度拟合问题的严重性,因为四个模型在功能工程和ADASYN方面的表现更好,并且准确性的显着增强。在这四个模型中,增强的RF模型在准确性,精度,灵敏度,特异性,F1分数和AUC方面,分别为0.95、0.97、0.96、0.8、0.94和0.88。关键字:银行贷款批准,贷款默认,机器学习算法,预测模型,类不平衡,功能工程
摘要在医学人工智能(AI)领域,数据偏见是影响数据收集,处理和模型构建的SEV阶段的主要困难。在此评论研究中,对AI中常见的许多形式的数据偏差进行了彻底检查,传递了与社会经济地位,种族和种族有关的偏见,以及机器学习模型和数据集中的偏见。我们研究了数据偏见如何影响医疗保健的提供,强调它可能会使健康不平等恶化并危害AI驱动的临床工具的准确性。我们解决了减少AI中数据偏差的方法,并关注用于创建合成数据的不同方法。本文探讨了几种缓解算法,例如Smote,Adasyn,Fair-Smote和Bayesboost。优化的贝内斯式算法已被解散。这种方法显示出更准确性,并解决了错误处理机制。
基于学习的方法的发展极大地提高了从电子显微镜 (EM) 图像中检测突触的能力。然而,为每个数据集训练一个模型非常耗时,而且需要大量的注释。此外,由于数据分布的变化,很难将学习到的模型应用于来自不同大脑区域的数据。在本文中,我们提出了 AdaSyn,这是一个基于分割的两阶段框架,用于具有弱点注释的域自适应突触检测。在第一阶段,我们利用基于分割的管道获得突触实例掩码来解决检测问题。在第二阶段,我们通过重新生成方形掩码来获得高质量的伪标签,从而提高模型在目标数据上的泛化能力。得益于我们的高精度检测结果,我们引入了距离最近原则来匹配成对的前突触和后突触。在 ISBI 2023 的 WASPSYN 挑战赛中,我们的方法排名第一。
摘要。Internet是设备的最常见连接工具,例如计算机,手机,智能手表等。这些设备与指定的服务器通信以提供信息。在这里,我们指的是连接众多称为物联网(IoT)的自动设备的系统。由于设备是不同类别的,有时很小,因此为有需要的人提供全面的安全性变得具有挑战性。但是,物联网上的传感器收集了大量数据,巨大的网络成为企业家的吸引力目标。对物联网的几项攻击之一是分发拒绝服务(DDOS)。机器学习可以在识别物联网中的这些攻击中起关键作用,因为它可以分析大量数据。机器学习模型可以学习合法的train tagre tagre模式,然后确定偏离学习模式的恶意数据包。分类技术可以根据与之相关的几个属性将恶意数据包与真正的数据包区分开。这项工作使用分类技术,例如随机森林,梯度提升和XGBoost来确定trail iC中的恶意数据包。分析表明,诸如Smote和Adasyn之类的平衡技术对于提高技术的性能至关重要。
背景:脑结核 (TB) 的表现常常与原发性和转移性脑肿瘤以及其他脑部感染性病变相似,因此很难诊断。它是造成严重后遗症和死亡的罪魁祸首,尤其是在发展中国家。需要一种快速准确的诊断方法来防止因延迟或错误诊断而导致的惨淡后果。我们的目标是开发一种分类器,利用机器学习帮助脑 MRI 上呈现的各种放射学特征将脑结核与脑肿瘤和其他感染区分开来。方法:纳入巴基斯坦卡拉奇阿迦汗大学医院的 72 例脑结核病和 146 例非结核病(包括脑膜瘤、神经胶质瘤、脑转移、真菌和细菌性脑感染),并将其分为训练数据集和测试数据集。使用相关矩阵选择特征;并包括从脑 MRI 记录的放射学特征,即环状增强、均匀增强、基底脑膜增强、脑膜增强(非基底)、均匀扩散受限、远端梗塞、脑积水、双侧多灶性病变、单侧多灶性病变和同一叶内多个病变,以及年龄和性别。在应用合成少数过采样技术 (SMOTE)、SMOTE-Tomek 链接、编辑最近邻 (ENN) SMOTE-ENN 和自适应合成 (ADASYN) 技术平衡数据集后,使用两个模型测试分类器准确性:逻辑回归和随机森林。结果:使用逻辑回归以及 SMOTE+TOMEK 获得最高精度 (90.9%),曲线下面积为 95.4%,F1 得分为 92.8%。将 SMOTE+TOMEK 应用于 Logistic 回归模型后,准确率提高了 6.81%。结论:机器学习在临床决策支持系统中显示出良好的作用,可以快速、无创地区分脑肿瘤和感染。这些分类器可以作为临床设置中使用的移动应用程序的基础。应采用采样技术来提高分类器的性能。关键词:脑肿瘤;脑结核;神经影像学;机器学习