超导性是凝聚态物理学中的一个了不起的现象,该现象包括一系列引人入胜的特性,这些特性预计会彻底改变能源相关的技术和相关的基础研究。但是,该领域面临在室温下实现超导性的挑战。近年来,人工智能(AI)方法已成为预测诸如过渡温度(T C)之类的特性的有前途的工具,以使大型数据库快速筛选以发现新的超导材料。这项研究采用超级数据集作为最大的超导材料数据集。然后,我们执行各种数据预处理步骤,以得出包含13022个化合物的干净数据数据集。在研究的另一个阶段,我们应用了新型的Catboost算法来预测新型超导材料的过渡温度。此外,我们开发了一个名为Jabir的软件包,该软件包生成了322个原子描述符。我们还设计了一种名为Soraya软件包的创新混合方法,以从功能空间中选择最关键的功能。这些产率R 2和RMSE值(分别为0.952和6.45 K)优于文献中先前报道的值。最后,作为对该领域的新贡献,Web应用程序的设计用于预测和确定超导材料的T C值。
超导性是凝聚态物理学中的一个了不起的现象,该现象包括一系列引人入胜的特性,这些特性预计会彻底改变能源相关的技术和相关的基础研究。但是,该领域面临在室温下实现超导性的挑战。近年来,人工智能(AI)方法已成为预测诸如过渡温度(T C)之类的特性的有前途的工具,以使大型数据库快速筛选以发现新的超导材料。这项研究采用超级数据集作为最大的超导材料数据集。然后,我们执行各种数据预处理步骤,以得出包含13,022种化合物的清洁数据集。在研究的另一个阶段,我们应用了新型的Catboost算法来预测新型超导材料的过渡温度。此外,我们开发了一个名为Jabir的软件包,该软件包生成了322个原子描述符。我们还设计了一种称为Soraya软件包的创新混合方法,以从功能空间中选择最关键的功能。这些产率R 2和RMSE值(分别为0.952和6.45 K)优于文献中先前报道的值。最后,作为对该领域的新贡献,Web应用程序的设计用于预测和确定超导材料的T C值。
摘要:该研究主要集中于使用机器学习方法来识别银行数据中的欺诈活动。这是金融部门的关键问题,在金融部门,检测和防止欺诈性交易至关重要。为了改善欺诈检测,该研究介绍了班级体重量大超参数。这些参数有助于模型更有效地区分合法和欺诈交易,从而增强了欺诈检测系统的准确性。这项研究从战略上采用了三种流行的机器学习算法:Catboost,LightGBM和XGBoost。每个算法都具有独特的优势,它们的综合用途旨在提高欺诈检测方法的整体性能。深度学习技术被整合到研究中以微调超参数。这种集成增强了欺诈检测系统的性能和适应性,使其在识别不断发展的欺诈策略方面更有效。该项目使用现实世界数据进行彻底评估。这些评估表明,在评估各种标准时,LightGBM和XGBoost的联合使用优于现有方法。这表明与其他方法相比,所提出的方法在检测欺诈活动方面更有效。包括,已经实现了一个堆叠分类器,将RandomForest和LightGBM分类器的预测与特定的设置相结合。使用梯度BoostingClassifier作为最终估计器,通过利用各种模型的优势来提高预测准确性。索引术语 - 贝叶斯优化,数据挖掘,深度学习,整体学习,超级参数,不平衡数据,机器学习。
数据预处理是机器学习管道的重要组成部分(García等,2015; Alasadi和Bhaya,2017;çetinandYıldız,2022),因为它极大地影响了数据质量(Famili等,1997),并发现可以优化机器学习模型的关系,并将其发现。尽管是一个耗时的过程(Anaconda,2022),但这是基本的,尤其是对于大型数据集,降低维度可以在随后的过程中节省时间(García等,2016)。数据预处理不仅包括质量检查,还包括关键元素,例如转换,填充丢失的数据,离群值检测以及模型的变量选择。尽管普遍认为,基于树的模型不需要预处理,因为它们可以在没有任何更改的情况下处理它,但实验表明我们可以通过适当的预处理获得更好的结果(Caruana等,2008; Grinsztajn等,20222)。这种理解可能对自动化机器学习(AUTOML)管道有益,使我们能够优化和实施一个自动化的机器学习过程,该过程可以适当地预处理数据集以获得所选模型以产生更好的结果。本文提出了一个广泛的实验,涉及38个数据预处理策略,用于二进制和多类分类以及回归任务。我们使用五个基于树的模型:决策树,随机森林,XGBOOST,LIGHTGBM和CATBOOST。我们扩展了Forester 1软件,包括更多干扰自动模型学习的预处理。有关该工具的更多信息可在附录A中获得。
本研究探索了将量子数据嵌入技术集成到经典机器学习 (ML) 算法中,旨在评估一系列模型的性能增强和计算影响。我们探索了各种经典到量子的映射方法,从基础编码、角度编码到幅度编码,对于编码经典数据,我们进行了一项广泛的实证研究,涵盖了流行的 ML 算法,包括逻辑回归、K 最近邻、支持向量机和集成方法,如随机森林、LightGBM、AdaBoost 和 CatBoost。我们的研究结果表明,量子数据嵌入有助于提高分类准确性和 F1 分数,尤其是在本质上受益于增强特征表示的模型中。我们观察到对运行时间的细微影响,低复杂度模型表现出适度的增加,而计算密集型模型则经历明显的变化。值得注意的是,集成方法在性能提升和计算开销之间表现出良好的平衡。这项研究强调了量子数据嵌入在增强传统 ML 模型方面的潜力,并强调了权衡性能改进与计算成本的重要性。未来的研究方向可能涉及改进量子编码过程以优化计算效率,并探索现实世界应用的可扩展性。我们的工作为量子计算和传统机器学习交叉领域的知识体系的不断增长做出了贡献,为寻求在实际场景中利用量子启发技术优势的研究人员和从业者提供了见解。
在过去的几十年中,在网络威胁的频率和复杂性的上升驱动下,计算机和信息安全的重要性呈指数增长。尽管入侵技术和安全技术都取得了迅速的进步,但许多组织仍在继续依靠过时的网络安全策略,使它们容易受到日益复杂的网络攻击的影响。常规防御措施,例如基本的防火墙和基于签名的检测系统,通常不足以抵抗使用高级方法(包括零日漏洞利用和多态性恶意软件)来逃避检测的现代攻击者。政府网络服务器容纳大量敏感的公民数据,是恶意演员特别有吸引力的目标。响应这些不断发展的威胁,部署入侵检测系统(IDS)已成为保护网络基础架构的关键组成部分,为未经授权的访问和数据泄露提供了必不可少的防御层。本研究探讨了六种基于机器学习的分类方法的功效;随机森林,梯度提升,Xgboost,catboost,Logistic回归和LightGBM在处理复合物,高维数据时都选择了其特定优势。这些算法应用于综合数据集以检测恶意活动,重点是实现分类性能的高精度和鲁棒性。值得注意的是,所有六个模型均表现出很大的有效性,达到0.98的准确率,AUC值达到1.00,突显了它们在增强IDS功能方面的潜力。结果强调了利用高级机器学习技术在增强网络安全防御方面的重要性,尤其是在关键领域(如政府数据保护)等关键领域,而精确性和可靠性至关重要。
本研究对机器学习 (ML) 和深度学习 (DL) 模型进行了全面的比较分析,这些模型用于根据温度、湿度、风速和风向等环境变量预测风力涡轮机 (WT) 的功率输出。除了人工神经网络 (ANN)、长短期记忆 (LSTM)、循环神经网络 (RNN) 和卷积神经网络 (CNN) 外,还研究了以下 ML 模型:线性回归 (LR)、支持向量回归器 (SVR)、随机森林 (RF)、额外树 (ET)、自适应增强 (AdaBoost)、分类增强 (CatBoost)、极端梯度增强 (XGBoost) 和轻梯度增强机 (LightGBM)。使用 40,000 个观测值的数据集,根据 R 平方、平均绝对误差 (MAE) 和均方根误差 (RMSE) 对模型进行了评估。在 ML 模型中,ET 的性能最高,R 平方值为 0.7231,RMSE 为 0.1512。在 DL 模型中,ANN 的性能最佳,R 平方值为 0.7248,RMSE 为 0.1516。结果表明,DL 模型(尤其是 ANN)的表现略优于最佳 ML 模型。这意味着它们更擅长对多变量数据中的非线性依赖关系进行建模。预处理技术(包括特征缩放和参数调整)通过增强数据一致性和优化超参数来提高模型性能。与之前的基准相比,ANN 和 ET 的性能均表明 WT 功率输出预测的预测准确度有显著提高。这项研究的新颖之处在于直接比较了各种 ML 和 DL 算法,同时强调了先进计算方法在可再生能源优化方面的潜力。
本研究旨在应用机器学习方法评估与严重不良事件 (SAE) 相关的危险因素并预测使用抗肿瘤药物的癌症住院患者 SAE 的发生。回顾性审查了 2017 年 1 月 1 日至 12 月 31 日期间入院的 499 名确诊为癌症的患者的病历。首先,使用全局触发工具 (GTT) 主动监测抗肿瘤药物引起的药物不良事件 (ADE) 和 SAE,并将阳性触发因素的数量作为中间变量。随后,通过单变量分析和最小绝对收缩和选择算子 (LASSO) 分析选出具有统计学意义的危险因素。最后,以LASSO分析后的危险因素作为协变量,采用基于逻辑模型、极端梯度提升(XGBoost)、分类提升(CatBoost)、自适应提升(AdaBoost)、轻梯度提升机(LightGBM)、随机森林(RF)、梯度提升决策树(GBDT)、决策树(DT)和基于七种算法的集成模型的列线图建立预测模型,并使用ROC曲线下面积(AUROC)、PR曲线下面积(AUPR)等一系列指标评估模型性能。在我们的样本中共识别出94名SAE患者,SAE的危险因素包括诱发因素数量、住院时间、年龄、联合用药数、既往化疗中发生的ADE以及性别。在测试队列中,基于逻辑模型的列线图的AUROC为0.799,AUPR为0.527。在八种机器学习模型中,GBDT 的预测能力最好(AUROC = 0.832 和 AUPR = 0.557),优于列线图,因此被选为建立预测网页。本研究提供了一种准确预测癌症住院患者 SAE 发生率的新方法。
客观的颅内囊力瘤是血管畸形,导致80%的非创伤性脑出血。最近,流动分流已被用作侵入性较少的手术治疗替代方案。但是,在25%的病例中,他们在6个月后无法完全闭塞。在这项研究中,作者使用Ma-Chine学习(ML)构建了一种工具,以预测与流动机处理后6个月后6个月后的动脉瘤闭塞结果。包括2011年1月至2017年12月之间在第三纪转介中心接受管道栓塞装置治疗的616名患者中,总共667例动脉瘤。为了构建预测工具,进行了两个实验。在第一个实验中,使用与患者风险因素和动脉瘤形态学特征相关的26个特征,将六种ML算法(支持向量机[SVM],决策树,随机森林[RF],K-Nearest邻居,XGBoost和Catboost培训)。在第二个例外情况下,使用Shapley添加说明(SHAP)分析在RF模型上提取的前10个功能进行了训练。结果结果表明,即使使用特征子集(83%的精度),即使在LR模型的SVM模型vs 62%的SVM模型与62%的SVM模型vs 62%的精度相比,SVM模型的准确性为89%(精度为83%)。塑形分析表明,年龄,高血压,吸烟状况,分支血管受累,动脉瘤颈部和较大的直径尺寸是有助于准确预测的最重要特征。在这项研究中得出结论,开发了一种基于ML的工具,该工具成功地预测了经过流动转移治疗的颅内动脉疫苗的结果,从而有助于神经外科医生实践更精致的方法和患者量化的药物。
摘要:这项工作提出了Seizft - 一种新型的癫痫发作检测框架,该框架利用机器学习使用可穿戴的Sensordot EEG数据自动检测癫痫发作。受到可预处的睡眠阶段的启发,我们的新方法采用了数据增强,有意义的特征提取和决策树的独特组合,以提高对脑电图变化的弹性,并提高概括以概括为看不见数据的能力。傅立叶变换(FT)替代物被用来增加样本量并改善标记的非塞兹和癫痫发作时期之间的平衡。为了增强模型稳定性和准确性,Seizft通过Catboost Classifier利用决策树的集合来将EEG记录的每一秒分类为癫痫发作或非癫痫发作。SEIZIT1数据集用于培训,SEIZIT2数据集用于验证和测试。使用两个主要指标:使用AINY-ROVERLAP方法(OVLP)和错误的警报(FA)速率(使用基于Epoch的评分(Epoch))评估了用于癫痫发作检测的模型性能。值得注意的是,Seizft在2023年2023年国际声学,言语和信号处理国际会议上(ICASSP)的癫痫发作检测挑战(ICASSP)的一系列最先进的癫痫发作检测算法(ICASSP)。seizft在准确的癫痫发作检测中优于最先进的黑盒模型,并最小化错误警报,总分获得了40.15的总分,在两个任务中结合了OVLP和时期,并且比下一个最佳方法的改善约为30%。Seizft的解释性是一个关键优势,因为它促进了医疗保健专业人员的信任和问责制。从Seizft提取的最预测性的癫痫发作检测特征是:三角波,四分位数范围,标准偏差,总绝对功率,Theta波,三角洲与Theta的比率,BINNED熵,Hjorth Complextity,Delta + Theta + Theta和Higuchi Fractal Fractal Ristermension。总而言之,将Seizft成功应用于可穿戴的Sensordot数据表明,它可能进行实时,连续监测的潜力,以改善个性化医学癫痫。