摘要 - 作为银行体系的核心业务是借入货币,然后将其取回,贷款违约是商业银行最关键的问题之一。随着数据分析和人工智能,从历史数据中提取有价值的信息,以降低其损失,银行将能够对客户进行分类并预测信贷还款的可能性,而不是依靠传统方法。由于大多数实际的研究都集中在个人的贷款上,因此本文的新颖性是处理公司贷款。其主要目标是提出一个模型,使用选定的机器学习算法解决问题,以将公司分为两个类,以便能够预测贷款违约者。本文深入研究公司贷款默认预测模型(CLD PM),该模型旨在预测公司中的贷款违约。该模型以CRIRP-DM流程为基础,从理解公司要求并实施分类技术开始。数据采集和制备阶段对于测试所选算法至关重要,该算法涉及逻辑回归,决策树,支持向量机,随机森林,XGBoost和Adaboost。使用各种指标,即准确性,精度,召回,F1分数和AUC评估该模型的功效。随后,使用摩洛哥房地产公司的实际贷款数据集对该模型进行审查。调查结果表明,随机森林和XGBoost算法的表现优于其他算法,每个度量标准都超过90%。这是通过将SMOTE作为一种过采样方法来完成的,鉴于数据集的不平衡。此外,当专注于财务报表时,选择了五个最重要的财务比率和该公司的年龄,随机森林擅长预测结果良好的违约者:准确性为90%,精度为75%,召回50%,F1得分为60%,AUC为77%。
本研究对机器学习 (ML) 和深度学习 (DL) 模型进行了全面的比较分析,这些模型用于根据温度、湿度、风速和风向等环境变量预测风力涡轮机 (WT) 的功率输出。除了人工神经网络 (ANN)、长短期记忆 (LSTM)、循环神经网络 (RNN) 和卷积神经网络 (CNN) 外,还研究了以下 ML 模型:线性回归 (LR)、支持向量回归器 (SVR)、随机森林 (RF)、额外树 (ET)、自适应增强 (AdaBoost)、分类增强 (CatBoost)、极端梯度增强 (XGBoost) 和轻梯度增强机 (LightGBM)。使用 40,000 个观测值的数据集,根据 R 平方、平均绝对误差 (MAE) 和均方根误差 (RMSE) 对模型进行了评估。在 ML 模型中,ET 的性能最高,R 平方值为 0.7231,RMSE 为 0.1512。在 DL 模型中,ANN 的性能最佳,R 平方值为 0.7248,RMSE 为 0.1516。结果表明,DL 模型(尤其是 ANN)的表现略优于最佳 ML 模型。这意味着它们更擅长对多变量数据中的非线性依赖关系进行建模。预处理技术(包括特征缩放和参数调整)通过增强数据一致性和优化超参数来提高模型性能。与之前的基准相比,ANN 和 ET 的性能均表明 WT 功率输出预测的预测准确度有显著提高。这项研究的新颖之处在于直接比较了各种 ML 和 DL 算法,同时强调了先进计算方法在可再生能源优化方面的潜力。
在全球范围内,农业对于人类粮食,经济活动和就业机会至关重要。小麦是农业中种植最多的农作物;但是,其年产量面临着各种疾病的巨大挑战。及时,准确地鉴定这些小麦植物疾病对于减轻大坝并提高总体产量至关重要。巴基斯坦由于天气良好和生产丰富的土壤而站在主要的作物生产商中。但是,传统的农业实践持续存在,并且不足以利用技术。农业部门面临的重大挑战,尤其是在巴基斯坦等国家,是对作物疾病的不合时宜和效率低下的诊断。现有的疾病鉴定方法通常会导致不准确和效率低下,从而降低生产率。这项研究提出了有效的小麦作物疾病诊断应用程序,该诊断适用于移动设备和计算机系统作为主要决策引擎。应用程序利用了复杂的机器学习技术,包括决策树(DT),随机森林(RF),支持向量机(SVM)和ADABOOST,并结合了特征提取方法,例如计数矢量化(CV)和术语频率内部文档频率(TF-IDF)。这些高级方法在诊断14种关键小麦疾病方面共同实现了99%的准确性,这对传统方法有了显着改善。该申请为巴基斯坦的农民和农业专家提供了一种实用的决策工具,提供精确的疾病诊断和管理改革。通过整合这些尖端技术,该系统可以发展农业技术,增强疾病检测并支持增加的小麦生产,从而为机器学习和农业实践的领域贡献了宝贵的创新。
添加剂制造(AM)工艺,例如激光粉末床融合,可以通过分层扩散和熔化粉末来制造物体,直到创建自由形式的零件形状。为了提高AM过程中涉及的材料的特性,重要的是要预测材料表征作为处理条件的函数。在热电材料中,功率因数是对材料如何将热量转化为电的有效性的量度。虽然较早的作品已经使用各种技术预测了不同热电材料的材料表征特性,但在AM过程中尚未探索机器学习模型的实现,以预测鞭毛尿酸酯(BI2TE3)的功率因数。这很重要,因为BI2TE3是低温应用的标准材料。作为概念证明,我们使用了有关涉及的制造处理参数的数据以及在BI2TE3 AM中收集的原位传感器监视数据,以训练不同的机器学习模型,以预测其热电功率因子。我们使用80%的培训和20%的测试数据实施了监督的机器学习技术,并进一步使用了置换功能重要性方法来识别重要的处理参数和原位传感器功能,这些特征最能预测材料的功率因数。基于合奏的方法,例如随机森林,Adaboost分类器和Bagging分类器,在预测功率因数方面表现最好,而袋装分类器模型则达到了90%的最高精度。此外,我们发现了前15个处理参数和原位传感器功能,以表征材料制造属性(例如功率因子)。这些功能可以进一步优化,以最大程度地提高热电材料的功率因数,并提高使用该材料制造的产品的质量。
单元I:机器学习介绍,学习模型,几何模型,概率模型,逻辑模型,分组和分级,设计学习系统,学习类型,学习,监督,无监督,增强,观点和问题,版本空间,PAC学习,PAC学习,VC尺寸。单元II:有监督和无监督的学习决策树:ID3,分类和回归树,回归:线性回归,多线性回归,逻辑回归,神经网络:简介,感知,多层感知,支持向量机:线性和非线性,线性和非线性,内核功能,K最近的邻居。聚类简介,K-均值聚类,K-Mode聚类。单元III:合奏和概率学习模型组合方案,投票,错误纠正输出代码,包装:随机林木,增强:Adaboost:堆叠,堆叠。高斯混合模型 - 期望 - 最大化(EM)算法,信息标准,最近的邻居方法 - 最近的邻居平滑,有效的距离计算:KD -Tree,距离测量。第四单元:加强学习和评估假设的介绍,学习任务,Q学习,非确定性奖励和行动,时间差异学习,与动态编程的关系,主动的加强学习,在增强学习中的概括。动机,抽样理论的基础:误差估计和估计二项式比例,二项式分布,估计器,偏见和差异单位V:遗传算法:动机,遗传算法:代表假设,遗传操作员,遗传操作员,适应性和选择,示例性的探索,遗传探索,遗传学探索,遗传学的探索,模型:效果,并行化遗传算法。
术后谵妄(POD)是老年髋部骨折患者常见且严重的并发症。识别出POD的高危患者有助于改善髋部骨折患者的预后。我们对2014年1月至2019年8月期间接受骨科手术治疗髋部骨折的老年患者(≥65岁)进行了回顾性研究。采用常规逻辑回归和五种机器学习算法建立POD的预测模型。采用逻辑回归方法构建POD预测列线图。计算受试者工作特征曲线下面积(AUC-ROC)、准确度、灵敏度和精确度来评估不同的模型。使用Shapley加性解释(SHAP)解释个体的特征重要性。约797名患者参加了该研究,POD的发生率为9.28%(74/797)。年龄、肾功能不全、慢性阻塞性肺病 (COPD)、抗精神病药物的使用、乳酸脱氢酶 (LDH) 和 C 反应蛋白用于构建 POD 的列线图,AUC 为 0.71。五种机器学习模型的 AUC 分别为 0.81(随机森林)、0.80(GBM)、0.68(AdaBoost)、0.77(XGBoost)和 0.70(SVM)。六种模型的敏感度范围从 68.8%(逻辑回归和 SVM)到 91.9%(随机森林)。六种机器学习模型的精确度范围从 18.3%(逻辑回归)到 67.8%(SVM)。使用逻辑回归和五种机器学习算法构建了髋部骨折患者 POD 的六种预测模型。机器学习算法的应用可以提供便捷的 POD 风险分层,使老年髋部骨折患者受益。
摘要 - 恶意软件是一种入侵,旨在损害计算机和任何网络连接的设备。由于数字时代的技术进步,恶意软件每天都以不同的形式发展。一些恶意软件包括病毒,特洛伊木马,勒索软件等。混淆的恶意软件是一种恶意软件,无法使用预定的签名模式或通过正常的检测策略来识别。混淆的恶意软件是对安全基础架构的主要威胁,很难检测到。为了自动化混淆的恶意软件检测过程,机器学习起着主要作用。本文旨在开发合适的机器学习模型作为一个合奏框架,以检测混淆的恶意软件。目标本文是在堆叠和提升下找到最有效,性能最高的合奏学习方法。堆叠的合奏学习分类器是通过机器学习模型(如随机森林,决策树,k-neart邻居和天真的贝叶斯)开发的。使用ADABOOST分类器,极端梯度提升分类器和直方图梯度增强算法开发增强集合学习分类器。从加拿大网络安全研究所进行的MalmeManalisy-2022数据集进行研究,其中包括58,598个记录,具有57个功能。使用准确性,精度,召回和F1得分等度量评估集合模型的性能。基于模型之间的比较分析,在堆叠方法中,随机森林和决策树以99.99%获得最高的精度。在增强方法中,通过直方图梯度提升和100%的极端梯度增强模型获得了最高精度。索引术语 - 合奏学习;恶意软件检测;机器学习;混淆的恶意软件;绩效评估
摘要:选择特定工作的候选人或为特定职位提名一个人需要花费时间和精力,因为需要搜索个人的档案。最终,招聘决策可能不会成功。但是,人工智能可以帮助组织或公司为合适的工作选择合适的人。此外,人工智能有助于选择能够实现组织战略和目标的和谐工作团队。本研究旨在促进机器学习模型的开发,以分析和聚类人格特质并对申请人进行分类,以便针对特定工作做出正确的招聘决策并确定他们的弱点和优势。帮助申请人在管理工作的同时取得成功并培训有弱点的员工对于实现组织的目标是必不可少的。应用所提出的方法,我们使用公开的“大五人格特质”测试数据集进行分析。采用预处理技术清理数据集。此外,使用皮尔逊相关方法进行假设检验。根据测试结果,我们得出结论,四种人格特质(宜人性、尽责性、外向性和开放性)之间存在正相关关系,神经质特质与这四种特质之间存在负相关关系。此数据集未标记。但是,我们将 K 均值聚类算法应用于数据标记任务。此外,各种监督机器学习模型(如随机森林 (RF)、支持向量机 (SVM)、K 最近邻 (KNN) 和 AdaBoost)都用于分类目的。实验结果表明,SVM 取得了最高的结果,准确率为 98%,优于其他分类模型。本研究通过研究人工智能在人力资源管理的现状和未来应用的程度,丰富了当前的文献和知识体系。除了人力资源专业人士外,我们的研究结果可能对公司、组织及其领导者和人力资源主管也具有重要意义。
本研究旨在应用机器学习方法评估与严重不良事件 (SAE) 相关的危险因素并预测使用抗肿瘤药物的癌症住院患者 SAE 的发生。回顾性审查了 2017 年 1 月 1 日至 12 月 31 日期间入院的 499 名确诊为癌症的患者的病历。首先,使用全局触发工具 (GTT) 主动监测抗肿瘤药物引起的药物不良事件 (ADE) 和 SAE,并将阳性触发因素的数量作为中间变量。随后,通过单变量分析和最小绝对收缩和选择算子 (LASSO) 分析选出具有统计学意义的危险因素。最后,以LASSO分析后的危险因素作为协变量,采用基于逻辑模型、极端梯度提升(XGBoost)、分类提升(CatBoost)、自适应提升(AdaBoost)、轻梯度提升机(LightGBM)、随机森林(RF)、梯度提升决策树(GBDT)、决策树(DT)和基于七种算法的集成模型的列线图建立预测模型,并使用ROC曲线下面积(AUROC)、PR曲线下面积(AUPR)等一系列指标评估模型性能。在我们的样本中共识别出94名SAE患者,SAE的危险因素包括诱发因素数量、住院时间、年龄、联合用药数、既往化疗中发生的ADE以及性别。在测试队列中,基于逻辑模型的列线图的AUROC为0.799,AUPR为0.527。在八种机器学习模型中,GBDT 的预测能力最好(AUROC = 0.832 和 AUPR = 0.557),优于列线图,因此被选为建立预测网页。本研究提供了一种准确预测癌症住院患者 SAE 发生率的新方法。
背景:急性肺栓塞 (PE) 是一种危急的医疗紧急情况,需要及时识别和干预。准确预测早期死亡率对于识别出现不良后果风险较高的患者并实施适当的治疗至关重要。机器学习 (ML) 算法有望提高 PE 患者早期死亡率预测的准确性。目标:利用临床和实验室变量设计一种用于预测 PE 患者早期死亡率的 ML 算法。方法:本研究利用多种过采样技术来提高各种机器学习模型(包括 ANN、SVM、DT、RF 和 AdaBoost)在早期死亡率预测方面的性能。根据算法特征和数据集属性为每个模型选择合适的过采样方法。预测变量包括四项实验室测试、八个生理时间序列指标和两个一般描述符。评估使用了准确度、F1_score、精确度、召回率、曲线下面积 (AUC) 和接收者操作特性 (ROC) 曲线等指标,全面展示了模型的预测能力。结果:研究结果表明,在评估的五个模型中,具有随机过采样的 RF 模型表现出优异的性能,在预测死亡类别时实现了较高的准确度和精确度以及较高的召回率。过采样方法有效地均衡了类别之间的样本分布,并提高了模型的性能。结论:建议的 ML 技术可以有效预测急性 PE 患者的死亡率。具有随机过采样的 RF 模型可以帮助医疗保健专业人员就急性 PE 患者的治疗做出明智的决定。该研究强调了过采样方法在管理不平衡数据方面的重要性,并强调了 ML 算法在改进 PE 患者早期死亡率预测方面的潜力。