在本文中,我们提出了一种方法,该方法结合了数据驱动和物理建模,以预测流域量表的径流发生和体积。以此目的,我们首先估计了绿色增强模型在有助于记录的风暴中的径流体积。然后,我们使用机器学习算法,即LightGBM(LGBM)和深神经网络(DNN)来预测在风暴开始或在风暴开始之前收集的一组大气变量(相对湿度,温度,大气,大气,大气,大气,大气,大气,大气,大气,大气,大气,大气,大气,大气,大气,大气压和风速)的输出。在马德里举行的小城市集水区的结果DNN的结果在预测径流发生和体积方面表现更好。在具有辅助变量的Mospheric变量处的输入初级(例如,在第一个小时记录的风暴强度数据,或从辅助回归方法中获得的降雨量和强度估计值)很大程度上增加了每个形式的模型。我们在该手稿数据驱动的算法中显示的是由物理标准塑造的,可以通过允许数据驱动算法从物理模型的输出中学习来成功生成。它代表了一种新颖的方法,用于通过机器学习从水文建模中的常见实践转移的物理信息驱动算法。
本研究调查了机器学习模型在开放式元视频中的区块链交易中的异常检测和欺诈分析的应用,这是虚拟空间中数字交易的日益增长的复杂性。Utilizing a dataset of 78,600 transactions that reflect a broad spectrum of user behaviors and transaction types, we evaluated the efficacy of several predictive models, including RandomForest, LinearRegression, SVR, DecisionTree, KNeighbors, GradientBoosting, AdaBoost, Bagging, XGB, and LightGBM, based on their Mean Cross-Validation Mean Squared Error (Mean CV MSE)。我们的分析表明,集合方法,尤其是Random Forest和Bagging,表现出卓越的性能,平均CV MSE分别为-0.00445和-0.00415,从而在复杂的交易数据集中突出了它们的稳健性。相比之下,线性回归和SVR是最不可能的,平均CV MSE为-224.67和-468.57,表明与数据集特性存在潜在的未对准。这项研究强调了在开放式元元中选择适当的机器学习策略的重要性,从而表明了对高级,适应性的方法的需求。这些发现对金融技术领域产生了重大贡献,尤其是在增强虚拟经济体系内的安全性和完整性方面,并倡导在区块链环境中采用细微差别的异常检测和欺诈分析方法。
数据预处理是机器学习管道的重要组成部分(García等,2015; Alasadi和Bhaya,2017;çetinandYıldız,2022),因为它极大地影响了数据质量(Famili等,1997),并发现可以优化机器学习模型的关系,并将其发现。尽管是一个耗时的过程(Anaconda,2022),但这是基本的,尤其是对于大型数据集,降低维度可以在随后的过程中节省时间(García等,2016)。数据预处理不仅包括质量检查,还包括关键元素,例如转换,填充丢失的数据,离群值检测以及模型的变量选择。尽管普遍认为,基于树的模型不需要预处理,因为它们可以在没有任何更改的情况下处理它,但实验表明我们可以通过适当的预处理获得更好的结果(Caruana等,2008; Grinsztajn等,20222)。这种理解可能对自动化机器学习(AUTOML)管道有益,使我们能够优化和实施一个自动化的机器学习过程,该过程可以适当地预处理数据集以获得所选模型以产生更好的结果。本文提出了一个广泛的实验,涉及38个数据预处理策略,用于二进制和多类分类以及回归任务。我们使用五个基于树的模型:决策树,随机森林,XGBOOST,LIGHTGBM和CATBOOST。我们扩展了Forester 1软件,包括更多干扰自动模型学习的预处理。有关该工具的更多信息可在附录A中获得。
本研究探索了将量子数据嵌入技术集成到经典机器学习 (ML) 算法中,旨在评估一系列模型的性能增强和计算影响。我们探索了各种经典到量子的映射方法,从基础编码、角度编码到幅度编码,对于编码经典数据,我们进行了一项广泛的实证研究,涵盖了流行的 ML 算法,包括逻辑回归、K 最近邻、支持向量机和集成方法,如随机森林、LightGBM、AdaBoost 和 CatBoost。我们的研究结果表明,量子数据嵌入有助于提高分类准确性和 F1 分数,尤其是在本质上受益于增强特征表示的模型中。我们观察到对运行时间的细微影响,低复杂度模型表现出适度的增加,而计算密集型模型则经历明显的变化。值得注意的是,集成方法在性能提升和计算开销之间表现出良好的平衡。这项研究强调了量子数据嵌入在增强传统 ML 模型方面的潜力,并强调了权衡性能改进与计算成本的重要性。未来的研究方向可能涉及改进量子编码过程以优化计算效率,并探索现实世界应用的可扩展性。我们的工作为量子计算和传统机器学习交叉领域的知识体系的不断增长做出了贡献,为寻求在实际场景中利用量子启发技术优势的研究人员和从业者提供了见解。
摘要:钢筋混凝土剪切壁是支撑侧载荷的最重要的建筑结构组件之一。尽管具有重要意义,但剪切壁的安全边缘不足,通过地球后侦察和当前的实验研究已经揭示了剪切壁的安全边缘。当前的剪力壁不能以基于力学和经验数据的模型而迅速确定其故障模式。为了确定剪切墙如何根据几何配置,材料质量和增强细节而失败,本研究使用机器学习(ML),该机器学习(ML)最近取得了一些进步。由395个实验带来了不同几何配置的剪切壁,构成了研究的详尽数据库。在这项研究中,最佳预测方法是通过评估八种机器学习方法来确定的,其中包括K最近的邻居(KNN),幼稚的贝叶斯,随机森林,XG增强,决策树,Ada Boost,Cat Boost和LightGBM。详尽的检查导致了这项研究中随机基于森林的ML方法的提议。在确定剪切壁如何破裂时,建议的方法准确87%。根据研究,纵横比,边界元素加固指数以及厚度厚度的壁比是剪切壁故障的关键因素。最后,这项研究提供了一种由数据驱动的分类方法,该方法是开源的,可以被全球设计公司使用。提供新见解的其他实验数据可能很容易包含在建议的方法中。
准确识别药物靶标相互作用(DTI)对于理解药物治疗机制、发现治疗疾病的新药物具有重要意义。目前,结合药物和靶标多源数据的DTI预测计算方法可以有效降低药物研发的成本和时间。但在多源数据处理中,往往不考虑不同源数据对DTI的贡献,因此如何充分利用不同源数据对DTI预测的贡献进行有效融合是提高DTI预测精度的关键。本文考虑不同源数据对DTI预测的贡献,提出一种基于药物和靶标多源数据有效融合的DTI预测方法,即EFMSDTI。EFMSDTI首先基于多源信息网络构建15个相似度网络,根据药物和靶标的生物学特征将其分类为药物和靶标的拓扑和语义图。然后根据多网络对DTIs预测的贡献,采用基于相似性网络融合(SNF)的选择性和熵加权方法对多网络进行融合。深度神经网络模型学习药物和靶标的低维向量的嵌入。最后,采用基于梯度提升决策树(GBDT)的LightGBM算法完成DTIs预测。实验结果表明,EFMSDTI比几种最先进的算法具有更好的性能(AUROC和AUPR为0.982)。此外,它在分析前1000个预测结果方面具有良好的效果,而前1000个DTI中有990个得到了确认。代码和数据可在https://github.com/meng-jie/EFMSDTI获得。
摘要在YouTube等平台上产生的用户生成内容的指数增长导致垃圾邮件评论的增加,这对用户体验和内容审核的工作产生了负面影响。本研究介绍了各种机器学习模型的全面比较研究,用于检测YouTube上的垃圾评论。该研究评估了一系列传统和集合模型,包括线性支持向量分类器(LinearsVC),Randomforest,LightGBM,XGBoost和fotingClassifier,目的是识别自动垃圾邮件检测的最有效方法。数据集由标记的YouTube注释组成,并使用术语频率插图频率(TF-IDF)矢量化进行文本预处理。使用分层的10倍交叉验证对每个模型进行训练和评估,以确保鲁棒性和概括性。LinearsVC优于所有其他模型,其精度为95.33%,F1得分为95.32%。该模型表现出优异的精度(95.46%)和召回(95.33%),使其在区分垃圾邮件和合法评论方面非常有效。结果突出了线性垃圾邮件检测系统的线性潜力,在准确性和计算效率之间提供了可靠的平衡。此外,研究表明,尽管Random Forest和投票classifier之类的集合模型表现良好,但在这种情况下它们并没有超过更简单的线性模型。未来的工作将探索深度学习技术的结合,例如卷积神经网络(CNN)和经常性神经网络(RNN),以捕获更复杂的模式并进一步提高YouTube等社交媒体平台上的垃圾邮件检测准确性。
本研究对机器学习 (ML) 和深度学习 (DL) 模型进行了全面的比较分析,这些模型用于根据温度、湿度、风速和风向等环境变量预测风力涡轮机 (WT) 的功率输出。除了人工神经网络 (ANN)、长短期记忆 (LSTM)、循环神经网络 (RNN) 和卷积神经网络 (CNN) 外,还研究了以下 ML 模型:线性回归 (LR)、支持向量回归器 (SVR)、随机森林 (RF)、额外树 (ET)、自适应增强 (AdaBoost)、分类增强 (CatBoost)、极端梯度增强 (XGBoost) 和轻梯度增强机 (LightGBM)。使用 40,000 个观测值的数据集,根据 R 平方、平均绝对误差 (MAE) 和均方根误差 (RMSE) 对模型进行了评估。在 ML 模型中,ET 的性能最高,R 平方值为 0.7231,RMSE 为 0.1512。在 DL 模型中,ANN 的性能最佳,R 平方值为 0.7248,RMSE 为 0.1516。结果表明,DL 模型(尤其是 ANN)的表现略优于最佳 ML 模型。这意味着它们更擅长对多变量数据中的非线性依赖关系进行建模。预处理技术(包括特征缩放和参数调整)通过增强数据一致性和优化超参数来提高模型性能。与之前的基准相比,ANN 和 ET 的性能均表明 WT 功率输出预测的预测准确度有显著提高。这项研究的新颖之处在于直接比较了各种 ML 和 DL 算法,同时强调了先进计算方法在可再生能源优化方面的潜力。
在过去的几十年中,在网络威胁的频率和复杂性的上升驱动下,计算机和信息安全的重要性呈指数增长。尽管入侵技术和安全技术都取得了迅速的进步,但许多组织仍在继续依靠过时的网络安全策略,使它们容易受到日益复杂的网络攻击的影响。常规防御措施,例如基本的防火墙和基于签名的检测系统,通常不足以抵抗使用高级方法(包括零日漏洞利用和多态性恶意软件)来逃避检测的现代攻击者。政府网络服务器容纳大量敏感的公民数据,是恶意演员特别有吸引力的目标。响应这些不断发展的威胁,部署入侵检测系统(IDS)已成为保护网络基础架构的关键组成部分,为未经授权的访问和数据泄露提供了必不可少的防御层。本研究探讨了六种基于机器学习的分类方法的功效;随机森林,梯度提升,Xgboost,catboost,Logistic回归和LightGBM在处理复合物,高维数据时都选择了其特定优势。这些算法应用于综合数据集以检测恶意活动,重点是实现分类性能的高精度和鲁棒性。值得注意的是,所有六个模型均表现出很大的有效性,达到0.98的准确率,AUC值达到1.00,突显了它们在增强IDS功能方面的潜力。结果强调了利用高级机器学习技术在增强网络安全防御方面的重要性,尤其是在关键领域(如政府数据保护)等关键领域,而精确性和可靠性至关重要。
本研究旨在应用机器学习方法评估与严重不良事件 (SAE) 相关的危险因素并预测使用抗肿瘤药物的癌症住院患者 SAE 的发生。回顾性审查了 2017 年 1 月 1 日至 12 月 31 日期间入院的 499 名确诊为癌症的患者的病历。首先,使用全局触发工具 (GTT) 主动监测抗肿瘤药物引起的药物不良事件 (ADE) 和 SAE,并将阳性触发因素的数量作为中间变量。随后,通过单变量分析和最小绝对收缩和选择算子 (LASSO) 分析选出具有统计学意义的危险因素。最后,以LASSO分析后的危险因素作为协变量,采用基于逻辑模型、极端梯度提升(XGBoost)、分类提升(CatBoost)、自适应提升(AdaBoost)、轻梯度提升机(LightGBM)、随机森林(RF)、梯度提升决策树(GBDT)、决策树(DT)和基于七种算法的集成模型的列线图建立预测模型,并使用ROC曲线下面积(AUROC)、PR曲线下面积(AUPR)等一系列指标评估模型性能。在我们的样本中共识别出94名SAE患者,SAE的危险因素包括诱发因素数量、住院时间、年龄、联合用药数、既往化疗中发生的ADE以及性别。在测试队列中,基于逻辑模型的列线图的AUROC为0.799,AUPR为0.527。在八种机器学习模型中,GBDT 的预测能力最好(AUROC = 0.832 和 AUPR = 0.557),优于列线图,因此被选为建立预测网页。本研究提供了一种准确预测癌症住院患者 SAE 发生率的新方法。