摘要传统上,医疗保健部门是技术进步的早期采用者,获得了很大的优势,尤其是在诸如疾病预测之类的机器学习应用中。最重要的疾病之一是中风。早期对脑部的发现对于挽救人类生命至关重要。脑部中风是一种疾病,当血液流向大脑的流动受到干扰或减少,导致脑细胞死亡并导致损伤或死亡。此外,世界卫生组织(WHO)将大脑中风归类为世界上第二个最致命的疾病。脑部中风仍然是医疗保健部门的重要因素。控制脑部中风的风险对于患者的存活很重要。在这种情况下,机器学习用于各种与健康相关的领域,尤其是“大脑中风”。为此,创建了一个自动化模型,用于识别和提供有用的脑冲程预测信息。它可以在早期阶段以很高的精度预测大脑中风。拟议的模型旨在检查患者有效的决策。这项研究采用了可自由访问的数据集以及机器学习方法的组合,例如随机森林,逻辑回归和决策树。此外,实施了抽样技术(SMOTE)的合成少数群体来处理不平衡的数据。该结果在预测脑冲程时表现出99%的高精度。关键字:机器学习,决策树,逻辑回归,随机森林,smote。
摘要 - 脑肿瘤需要评估以确保及时诊断和有效的患者治疗。形态学因素,例如大小,位置,纹理和可变外观 - 肿瘤检查。医学成像提出了挑战,包括噪声和不完整的图像。本研究文章介绍了一种处理磁共振成像(MRI)数据的方法,包括用于图像分类和DeNoing的技术。有效使用MRI图像使医疗专业人员可以检测包括肿瘤在内的脑部疾病。这项研究旨在通过分析提供的MRI数据来对健康的脑组织和脑肿瘤进行分类。与诸如计算机断层扫描(CT)之类的替代方法不同,MRI技术提供了内部解剖组件的更详细表示,是研究与脑肿瘤相关的数据的合适选择。MRI图片首先使用各向异性扩散滤波器进行脱氧技术。用于模型创建的数据集是公共访问且经过验证的脑肿瘤分类(MRI)数据库,其中包括3,264次大脑MRI扫描。SMOTE用于数据增强和数据集平衡。卷积神经网络(CNN),例如RESNET152V2,VGG,VIT和EFIDENTEN,用于分类程序。有效网络的精度为98%,是记录最高的。索引术语 - MRI,EfficityNet,脑肿瘤,Smote,CNN
随着沙特阿拉伯糖尿病患病率的日益增长,迫切需要早期发现和预测该疾病以防止长期健康并发症。TIS研究通过使用机器学习(ML)技术来解决这一需求,该技术通过实现用于预测糖尿病的计算机化系统,应用于PIMA Indians数据集和私人糖尿病数据集。与先前的研究相反,本研究采用了半佩斯的模型,结合了强大的梯度提升,有效地预测了数据集的糖尿病相关特征。此外,研究人员采用了SMOTE技术来处理不平衡的类别。十种ML分类技术,包括逻辑回归,随机森林,KNN,决策树,包装,Adaboost,Xgboost,Xgboost,投票,SVM和Naive Bayes,以确定产生最准确的糖尿病预测的算法。提议的方法取得了令人印象深刻的表现。对于私有数据集,带有SMOTE的XGBoost算法的精度为97.4%,F1系数为0.95,AUC为0.87。对于组合数据集,它的精度为83.1%,F1系数为0.76,AUC为0.85。要了解模型如何预测FNAL结果,实现了使用Shap方法解释的AI技术。此外,该研究通过应用域适应方法证明了所提出的系统的适应性。为了进一步增强可访问性,已经为基于用户输入功能的即时糖尿病预测开发了移动应用程序。TIS研究为基于ML的糖尿病预测而贡献了新的见解和技术,这可能有助于对沙特阿拉伯糖尿病的早期检测和管理。
摘要 - 情绪分析在理解公众情绪方面起着至关重要的作用,尤其是在数字通信领域,因为每天都会产生大量的文本数据。本研究深入探讨了情绪分类模型,即朴素贝叶斯分类器 (NBC) 和支持向量机 (SVM),在情绪分析任务中经常遇到的不平衡数据集中的有效性。采用比较分析方法,以来自在线平台的机器人酒店评论数据集作为评估的基础。NBC 和 SVM 模型都经过训练和评估,使用和不使用合成少数过采样技术 (SMOTE),以纠正类别不平衡。性能评估依赖于关键指标,包括准确度、召回率、精确度、f 测量和曲线下面积 (AUC) 来衡量模型的有效性。研究结果表明,SVM 在准确率(SVM:76.88%,NBC:67.43%)、精确率(SVM:92.03%,NBC:86.87%)、召回率(SVM:58.88%,NBC:41.00%)、f 值(SVM:71.78%,NBC:55.63%)和 AUC(SVM:0.907,NBC:0.961)方面均优于 NBC。引入 SMOTE 后,两种模型的性能均显著提升,尤其是在解决类别不平衡问题方面。虽然 NBC 在精确率和召回率指标上表现更为均衡,但 SVM 在情感分类任务中展现出更高的准确率和预测能力。这些发现强调了算法选择和预处理技术在优化情感分析性能方面的关键作用,从而为从业者和研究人员提供了宝贵的见解。
该项目着重于使用Python设计强大的信用卡欺诈检测系统,利用其丰富的数据科学库和框架生态系统。主要的挑战在于解决欺诈数据集固有的极端类不平衡,在该数据集中,合法交易大大超过了欺诈行为(通常不到总数据的1%)。这种不平衡会偏向模型的性能,从而导致较高的假阴性率和传统准确度指标无效。为了克服这一点,探索了诸如综合少数群体过采样技术(SMOTE),类加权和异常检测算法之类的技术,以增强对欺诈模式的模型敏感性。
心脏病是一个全球健康问题,每年会导致大量死亡。早期发现和及时干预可以减少疾病和死亡的影响。传统的医学测试通常需要大量且耗时的治疗。机器学习的出现为开发有效有效的诊断工具开发了新的途径。该研究的重点是开发强大的机器学习系统,以使用公开数据来预测心血管疾病。在这项研究中,评估了单个分类和对齐方法的性能,强调了优先分配方法的重要性,例如SMOTE解决类别和索引不一致之处。提高绩效标准的措施。
我们开展了一项研究来评估梯度提升算法在岩爆评估中的潜力和稳健性,建立了一个变分自动编码器(VAE)来解决岩爆数据集的不平衡问题,并提出了一种针对基于树的集成学习的多级可解释人工智能(XAI)。我们从现实世界的岩爆记录中收集了537个数据,并选择了四个导致岩爆发生的关键特征。首先,我们使用数据可视化来深入了解数据的结构,并进行相关性分析以探索数据分布和特征关系。然后,我们建立了一个VAE模型来为由于类别分布不平衡而产生的少数类生成样本。结合VAE,我们比较和评估了六种最先进的集成模型,包括梯度提升算法和经典逻辑回归模型,用于岩爆预测。结果表明,梯度提升算法优于经典的单一模型,而 VAE 分类器优于原始分类器,其中 VAE-NGBoost 模型的结果最为理想。与针对不平衡数据集结合 NGBoost 的其他重采样方法(例如合成少数族群过采样技术 (SMOTE)、SMOTE 编辑最近邻 (SMOTE-ENN) 和 SMOTE-tomek 链接 (SMOTE-Tomek))相比,VAE-NGBoost 模型的效果最佳。最后,我们使用特征灵敏度分析、Tree Shapley 附加解释 (Tree SHAP) 和 Anchor 开发了一个多级 XAI 模型,以深入探索 VAE-NGBoost 的决策机制,进一步增强基于树的集成模型在预测岩爆发生方面的可靠性。
在线欺诈是严重的犯罪,为人们和金融机构造成了巨大的财务损失。在数十亿个DOL-LARS中每年损失,发现和停止这些欺诈行动已成为一个关键问题。在识别这些动作方面以高精度率实施机器学习算法是解决此问题的有效策略。不幸的是,互联网交易欺诈是一个受欢迎且脆弱的目标。电子商务和其他在线平台的增长扩大了在线支付选择的可用性,从而增加了欺诈的危险。因此,使用机器学习技术来检测和分析在线进行交易中的欺诈行为有可能大大降低这种发展中的趋势。这项研究的目的是为欺诈检测而设计的监督机器学习模型。它根据交易类型分析了先前的交易数据,将交易分为各个类别。然后对多个分类器进行培训和评估以确保准确性,分类器的评分最高是预测欺诈的最成功方法之一。解决方案。该研究使用在线付款交易数据集解决了不平衡数据的问题,大多数交易是非伪装的。该研究通过(SMOTE)衡量数据集来解决此问题,这是合成少数民族过度采样的方法。此外,使用高参数调整来改善随机森林分类器的性能。为建立一个更平衡的数据集来培训分类器,并将其命中了少数类别的合成示例。的机器学习模型来确定欺诈性交易。进行了比较研究以评估效率并选择最佳选择。关键字:异常检测,机器学习,回归,分类,Smote。
摘要:联合学习是一种在医学领域中用于解决集中化,隐私和机密性等问题的创新方法。它收集了来自几个本地模型的多种数据,并在仅共享结果而不是数据的全球模型中汇总了它。它是一种协作模型培训方法,可实现最佳性能。我们为糖尿病患者预测建立了框架工作,该框架由人工神经网络(ANN),经常性神经网络(RNN)和长期短期内存(LSTM)网络组成。这些模型对分布在多家医院的本地数据进行独立培训,以确保隐私和数据安全。为了改善数据集和地址类不平衡,使用了探索数据分析(EDA)技术和合成少数民族过度采样技术(SMOTE)。EDA有助于理解数据的基本模式和特征,而Smote会生成合成数据点以平衡类。和在全球模型中,我们汇总了所有本地模型权重,并根据其预测精度检查现有本地模型之间的最佳模型。在我们的框架工作中,ANN的精度为89%。因此,考虑这些值进行预测。在训练不同的模型后,我们通过RNN获得了89.00%的精度,ANN的精度为89.99%,精度为89.08%。使用LSTM模型。因此,我们继续使用ANN模型来预测糖尿病。成功提交所有权重后,我们通过全球模型中的最佳性能策略获得了这些精度水平。这种方法可确保绩效最高的模型用于鉴定,从而在协作医疗保健环境中增强糖尿病患者鉴定系统的整体有效性和实际性。
2 IEEE成员|麦克尼州立大学,德克萨斯州,美国kumarvuppala.shiva@gmail.com摘要ETL(提取,转换和负载)过程是关键的数据处理组件。 传统的ETL过程缺乏所需的功能和敏捷性,并且缺乏应对数据生态系统的动态和不断发展的性质。 传统的ETL系统对数据管理过程提出了无数的挑战,例如处理高容量,高速数据,模式映射和保留数据质量的效率低下。 当前研究的目的是通过强调ML在改善数据转换和异常检测中的作用来实施机器学习(ML),以探索在ETL管道中整合ML的方法,并通过实用和理论镜头分析ML在ETL管道中的影响。 从Kaggle下载了由284,807行和31列组成的信用卡欺诈数据集。 该数据集最重要的问题是巨大的类失衡。 使用一种现代方法称为合成少数群体过采样技术(SMOTE)。 隔离森林(如果)用于检测数据集中的异常。 调查结果表明,在ETL管道中实施ML可以解决特征量表差异的问题,从而提高了模型的平衡和准确性。 该项目突出了现代机器学习驱动的ETL转换和异常检测过程的好处,而不是传统工作流程。 索引术语ETL管道,机器学习,数据转换,异常检测,SMOTE和隔离林。 I.2 IEEE成员|麦克尼州立大学,德克萨斯州,美国kumarvuppala.shiva@gmail.com摘要ETL(提取,转换和负载)过程是关键的数据处理组件。传统的ETL过程缺乏所需的功能和敏捷性,并且缺乏应对数据生态系统的动态和不断发展的性质。传统的ETL系统对数据管理过程提出了无数的挑战,例如处理高容量,高速数据,模式映射和保留数据质量的效率低下。当前研究的目的是通过强调ML在改善数据转换和异常检测中的作用来实施机器学习(ML),以探索在ETL管道中整合ML的方法,并通过实用和理论镜头分析ML在ETL管道中的影响。从Kaggle下载了由284,807行和31列组成的信用卡欺诈数据集。该数据集最重要的问题是巨大的类失衡。使用一种现代方法称为合成少数群体过采样技术(SMOTE)。隔离森林(如果)用于检测数据集中的异常。调查结果表明,在ETL管道中实施ML可以解决特征量表差异的问题,从而提高了模型的平衡和准确性。该项目突出了现代机器学习驱动的ETL转换和异常检测过程的好处,而不是传统工作流程。索引术语ETL管道,机器学习,数据转换,异常检测,SMOTE和隔离林。I.简介A.背景ETL(提取,转换和负载)过程是关键的数据处理组件。它与从多个数据源中提取数据,将其转换为一致且可用的格式,并将其加载到适当的目标系统中[1]。通过将数据从多个数据源合并为适当的格式以进行分析,ETL的有效实施ETL的有效实施增强了组织提高数据的相关性和完整性的能力。etl可以使最初存在于筒仓中并分散成各种系统和格式的数据的合并,清洁和转换,使其不仅可以访问,而且对决策也有用。ETL过程在决策和数据管理过程中的贡献取决于执行三个步骤的有效性。第一步,提取,与组织内部或外部的多个来源的数据相关[2]。虽然大多数数据都是从操作应用程序获得的,但包含来自外部来源的数据增强了