我们采用了一个病例对照设计,用于回顾性领土范围内的队列,由364,863个独特的老年人(65岁)和至少1洪孔医院的授权从2013年到2018年至2018年。我们在一年的时间内使用了258个预测因素,包括人口统计学,录取,诊断,药物和常规实验室测试,以预测在接下来的12个月内需要住院的SH事件。该队列以7:2:1的比率随机分为训练,测试和内部验证集。六种ML算法,包括逻辑回归,随机森林,梯度增压机,深神经网络(DNN),XGBOOST和RULEFIT。我们在香港糖尿病登记册中与2018年定义的预测因子和2019年定义的结果事件的时间验证队列中测试了我们的模型。使用接收器操作特征曲线(AUROC),精确召回曲线(AUPRC)统计的区域以及正预测值(PPV)评估了预测性能。我们确定了在观察期间需要住院的11,128个SH事件。XGBoost模型
摘要。流动性风险是巨大的财务威胁,其管理不善会导致重大财务损失。本研究研究了机器学习技术(例如KNN,SVM,决策树,RF和XGBOOST)在印度银行的流动性风险中的应用。2013 - 2022年的财务数据分析了31个商业银行。模型将财务比率用作预测因素,流动性风险由流动资产与总资产和贷款比率相关。尽管由于样本较小而导致的普遍性限制,但结果表现出诸如KNN和XGBoost等算法的潜力,以预测准确的流动性风险。该研究的发现表明,使用液体资产将液体资产用于总资产来替代流动性风险的模型给予了KNN的最佳结果,并分别给出了MAE和MSE评分0.129和0.027。当使用存款贷款以替代流动性风险时,DT是表现最好的算法,MAE和RMSE得分分别为0.191和0.231。还发现,与其他选定模型相比,MLP表现不佳。实际含义包括使用这些技术为印度银行开发流动性预警系统。
摘要。这项研究使用三种不同的机器学习算法来构建用于糖尿病预测的模型,并比较每个模型的准确性,这些算法是K最近的邻居(KNN),逻辑回归和特质梯度提升(XGBoost)。这项研究的目标是找到一种用于糖尿病预测的精确算法,这确实是为医生诊断糖尿病的导电性。以这种方式,患者可以按时获得适当的治疗。在构建模型之前,数据集是通过标准缩放和综合少数族裔过度采样(SMOTE)来进行处理的,以平衡类。然后,使用网格搜索简历来找到模型的最佳参数。最后,结果表明,KNN的精度为82%,其次是XGBoost的精度,为79.87%,而Lo-Cistic回归为75.5%。KNN算法的优点是,它仅考虑训练样本与新样本之间的距离,这些距离将在没有任何其他计算的情况下预测。结果,KNN在这三种算法中表现出了最佳性能。将来,本研究可以扩大数据集的大小并尝试更多参数,以便在糖尿病预测模型上获得更高的准确性。
代表Länsförsäkringar,本研究重点是使用三种不同的机器学习算法构建的三个模型在接受与Länsförsäkringar当前模型相同的数据进行培训时执行的。使用的算法是随机森林,XGBoost和人工神经网络,所使用的数据集由持有2007年至2019年之间的私人客户组成。此外,该研究还涵盖了现场的当前文献,特征分析,可变选择以及对模型优化的超参数培训。根据选定的性能度量AUC,Brier分数和对数损失的模型是XGBoost模型,该模型与以前的几项研究的发现一致。发现该模型的透明度和解释性不如逻辑回归,但该模型并不完全缺乏透明度。研究表明,如何在PD建模领域实施这些模型以及如何解释和更改Finansinspektionen和EU的要求,以使风险管理中的实施机器学习。
热泵是复杂的系统,容易受到各种故障的影响。通过纳入当代物联网技术,这些设备不断传输数据,从而可以监视,维护和效率。这项研究着重于通过监督的机器学习算法(例如XGBoost,Random Forest,SVM和K-NN)识别出短持续时间循环为故障。使用来自热泵系统的大量记录数据进行了数据预处理和标记,从而解决了高维度,数据稀疏性和时间依赖性等问题。方法包括特征工程,丢失数据的插值以及压缩机短持续时间循环的缩写。进行了监督的机器学习模型,以对这些短持续时间周期进行分类。在模型中,XGBoost达到了最高的精度和F1得分,有效地区分了正常条件和断层条件。这些发现突出了机器学习的潜力,以增强热泵中的预测性维护和操作效率。
图 1. CUD 患者与健康对照者的 FC 表型。(A)10 倍交叉验证的分类性能:基于 FC 的 XGBoost 模型的准确度、灵敏度和特异性分别为 0.83 ± 0.10、0.80 ± 0.18 和 0.85 ± 0.10。(B)通过计算特征出现在模型所有树中的频率,对 XGBoost 模型识别出的 40 个最具判别性的 FC 特征进行可视化。节点大小表示根据链接的 FC 重要性总和计算出的节点强度。(C)通过基于 Yeo 的 7 个网络对 FC 重要性进行分组获得的网络级判别模式。(D)平均网络间和网络内 FC 强度。网络间 FC 强度是通过计算每个网络和所有其他网络中判别连接的重要性的平均来计算的。VIS,视觉网络;SMN,躯体运动网络; DAN,背侧注意网络;VAN,腹侧注意网络;LIM,边缘网络;FPC,额顶叶控制网络;DMN,默认模式网络。
图2:从有或不包含强度定律方程的五个模型的预测孔隙率值的比较:(a)CNN,(b)knn,(c)lstm,(d)RF和(e)xgboost。将强度定律方程组合为输入的图可显着提高预测的准确性,从而与真实的孔隙率值更紧密地对齐。
摘要 在改善教育条件的各种方法中,人们正在努力减少每位教师的学生人数。但是,对于政策决策,需要反映多种因素,例如学生人数随时间的变化以及当地要求。基于时间序列分析的统计模型已被用作指导政策决策的方法。但是,现有的统计模型是线性的,其预测准确性较低。此外,由于影响学生人数并进而影响所需教师人数的预测的因素既有内部因素,也有外部因素,因此有必要开发一个反映这一点的模型。因此,在本研究中,使用XGBoost技术开发了基于机器学习的人工智能模型,并使用特征重要性,部分依赖图和Shap值来增加模型的解释潜力。该模型的性能小于 0.03 RMSE,并确认在几个因素中,经济活动人口对教师数量的影响最为显著。通过本研究,可以检验具有更高解释可能性的人工智能模型在预测教师数量方面的适用性。关键词:教师供给、需求预测、人工智能模型开发、XGBoost、XAI、SHAP。
机器学习方法在医疗领域广泛使用。但是,这些模型的可靠性和功效很难评估,这使得研究人员难以确定哪种机器学习模型适用于其数据集。我们评估了模型指标(例如AUROC,灵敏度,特异性)的方差计算是否通过自举仿真和外形加性解释(SHAP)可以提高模型透明度并改善模型选择。使用了英格兰国家健康服务心脏病预测队列的数据。在比较了XGBoost,随机森林,人工神经网络和自适应增强的模型指标之后,本研究中使用XGBoost作为选择的机器学习模型。BOOST-STRAP模拟(n = 10,000)用于从经验上得出模型指标的分布和协变量增益统计。整体添加说明(SHAP),以提供机器学习输出和仿真的解释,以评估模型精度的差异。对于Xgboost建模方法,我们观察到(通过10,000个完成的模拟),AUROC的范围为0.771至0.947,差异为0.176,平衡精度为0.688到0.688到0.894,敏感性差异为0.632差异为0.632差异0.632到0.3920差异0.932差异0.30777939,均为0.939,均为0.939,均为0.939,均为0.939,均为0.939,均为0.939,均为0.939,范围差0.944,0.394差异。使用仿真来凭经验评估模型指标和解释算法的可变性,以观察协变量是否与文献相匹配,这对于提高了运输,可靠性和机器学习方法的实用性是必需的。在完成的10,000个模拟中,我们观察到,胆固醇的胆固醇的增益范围从0.225到0.225到0.456,差异为0.231,差异为0.148范围为0.148至0.178,最大心率(MAXHR)的差异为0.178,范围为0.081至0.200,范围为0.200,范围为0。 0.098。这些差异统计数据,结合模型精度统计数据可以帮助研究人员确定给定数据集的最佳模型。
英语论文是英语学习的关键部分,反映了学生运用英语技能的整体能力。因此,对英语论文的准确评分至关重要[1]。传统的评估方法涉及教师的手动分级,这很耗时,可能无法为每个学生提供个性化评估,尤其是在面对大量学生时[2]。机器学习算法的出现提供了一种自动评分英语论文的方法。自动论文评分的机器学习算法的基本原理是使用大量的预定论文数据集来训练该算法以学习评分模式并将其应用于未知文章。将机器学习应用于自动的英语论文评分可以使评分更加客观和高效,从而节省了教师的时间和精力[3]。但是,在捕获诸如写作样式和上下文之类的主观信息时,将机器学习用于自动评分仍然存在局限性。需要进一步改进算法以说明这些主观元素。McNA-MARA [4]研究了层次分类方法在自动论文评分中的应用,并证明了该方法在论文评分领域的有效性。li [5]提出了一种使用神经网络自动中文论文评分的新模型,该模型应用BERT网络以获取文章的句子向量,然后使用两层双向双向短期内存(BI-LSTM)提取文章向量。实验结果表明,该模型的性能比其他基线方法更好。hao [6]提出了一个加权有限状态自动机系统,并利用了渐进的潜在语义分析来处理大量论文。实验结果验证了系统的有效性。本文简要介绍了用于英语论文的基于XGBoost的自动评分算法,并引入了LSTM语义模型,以从论文中提取语义评分功能,以提高算法的准确性。最后,在模拟实验中,使用五种主题赋予的论文将优化的XGBoost算法与传统的XGBoost和LSTM算法进行了比较。