lundberg&Lee(2017)提出了一种统一的方法,以应用局部解释性(单个样本中单个变量的可变分配)和全局解释性(整个模型的可变概述),通过应用Shapley(1953)提出的游戏理论的收益原理的公平分布,通过应用收益原理的公平分布。现在称为Shap(Shapley添加说明),该建议的框架解释了ML模型的预测,其中输入变量代替了玩家,并且使用Shapley值来衡量它们对特定预测的贡献。连续地,Redell(2019)提出了一个度量标准,该指标将Shapley值的添加特性与Gelman(2018)的R平方(R2)的鲁棒性相结合,以产生一个方差分解,以准确地将每个变量对模型的探索功率的贡献进行贡献。我们还使用签名的R2,以表示与线性SEM一致的连接的调节,因为DAG中的边缘表示节点调节(如果阳性;如果抑制,如果为阴性)。使用符号(beta)(即,来自输入节点上的输出节点的线性模型(LM)拟合的系数估计值)的符号已被重新覆盖。此外,为了确定节点调节相对于DAG的局部意义,可以通过将其输入节点的ShapleyR2求和来计算每个结果节点的R-squared值的塑形分解(r = 1,...,...,r)。因此,该函数使用进度条来检查每个观察值的内核形状评估的进度。最后,应该注意的是,计算内核形状值所需的操作本质上是耗时的,计算时间与预测变量数量和观测值的数量成正比。
局部添加说明方法越来越多地用于了解复杂机器学习(ML)模型的预测。最常用的广告方法,塑造和石灰,遭受文献中很少测量的局限性。本文旨在使用六个定量指标来衡量对OpenML数据集(304)数据集的这些限制,还评估了基于新兴联盟的方法来解决其他方法的弱点。我们在特定的医疗数据集(Sa Heart)上说明和验证结果。我们的发现表明,石灰和沙普的大约在高维度上特别有效,并产生了可理解的全球解释,但是在更改方法的pa-rameters时,它们缺乏精确度,并且可能是不需要的行为。基于联盟的方法在高维度上在计算上昂贵,但提供了更高质量的本地解释。最后,我们提出了一个路线图,总结了我们的工作,指出了最合适的方法,具体取决于数据集维度和用户的目标。
摘要:这项研究探讨了1990年至2021年的石油价格冲击对尼日利亚经济的影响,重点是真正的国内生产总值(RGDP),汇率(EXR)和支付余额(BOP)。利用矢量自回旋(VAR)模型,该研究揭示了油价冲击对RGDP的积极影响,如2015年经济衰退中观察到的全球原油价格和下降期间全球原油价格的经济增长和下降期间的收缩。差异分解分析表明,石油价格,汇率和BOP对RGDP的可变性贡献,强调了石油部门在尼日利亚的经济动态中的重要作用,Granger因果关系/块外循环测试揭示了石油价格和关键变量之间的方向性因果关系,强调了他们在Shaps shap shap andy Antimics andy Antive andynics and andynics and andynics intynict andynict andynics andynics andynics andynics。加速了经济多元化,对石油以外的其他部门的投资,促进出口领导的增长,建立外汇储备,以减少全球石油价格波动的经济脆弱性。
摘要:铁 (Fe) 螯合药物和组蛋白去乙酰化酶 (HDAC) 抑制剂是治疗遗传性弗里德赖希共济失调的两种选择,已被证明可以改善临床结果 (FA)。Fe 螯合分子可以最大限度地减少储存的 Fe 量,而 HDAC 抑制剂可以促进 Frataxin (FXN) 基因的表达,从而增强 FA。本文报告了从 ChEMBL 数据库中对抑制剂进行完整的定量构效关系 (QSAR) 搜索,其中包括 437 种 Fe 螯合化合物和 1,354 种 HDAC 抑制剂化合物。为了进一步研究,选择 IC50 作为生物活性单位,经过数据细化,最终生成了 436 种 Fe 螯合化合物和 1,163 种 HDAC 抑制化合物的数据集。使用随机森林 (RF) 技术生成模型(训练 R 2 得分分别为 0.701 和 0.892;测试 R 2 得分分别为 0.572 和 0.460,分别针对 Fe 和 HDAC)。使用 PubChem 指纹创建的模型是 12 种指纹类型中最强的;因此选择该特征进行解释。结果显示了与含氮官能团(PubchemFP656 的 SHAP 值为 -0.29)和芳香环(PubchemFP12 的 SHAP 值为 -0.16)相关的特性的重要性。因此,我们解释了分子指纹对模型的影响以及对可用于人工智能 FA (XAI) 的潜在药物的影响,这可以通过 SHAP(Shapley 加法解释)值来解释。模型脚本和指纹识别方法也可在 https://github.com/tissueandcells/XAI 获得。关键词:可解释人工智能、弗里德赖希共济失调、预测准确性、定量构效关系、QSAR、Shapley 值。
生物多样性在全球范围内正在下降,如果要逆转当前趋势,预测物种多样性至关重要。树种丰富度(TSR)长期以来一直是生物多样性的关键衡量标准,但在当前模型中存在很大的确定性,尤其是考虑到经典的统计假设和机器学习成果的生态解释性差。在这里,我们测试了几种可解释的机器学习方法,以预测TSR并解释美国大陆的驾驶环境因素。我们开发了两个人工神经网络(ANN)和一个随机森林(RF)模型,以使用森林库存和分析数据和20个环境协变量来预测TSR,并将它们与经典的广义线性模型(GLM)进行比较。模型。采用了一种可解释的机器学习方法,Shapley添加性解释(SHAP),以解释驱动TSR的主要环境因素。与基线GLM相比(R 2 = 0.7; MAE = 4.7),ANN和RF模型的R 2大于0.9,MAE <3.1。此外,与GLM相比,ANN和RF模型产生的空间群集TSR残差较少。塑形分析表明,TSR最好通过干旱指数,森林面积,高度,最干燥季度的平均降水量和平均年温度预测。塑造进一步揭示了环境协变量与TSR和GLM未揭示的复杂相互作用的非线性关系。该研究强调了森林地区保护工作的必要性,并减少了低森林但干旱地区的树种与降水有关的生理压力。此处使用的机器学习方法可用于研究其他生物的生物多样性或在未来气候场景下对TSR的预测。
摘要 在改善教育条件的各种方法中,人们正在努力减少每位教师的学生人数。但是,对于政策决策,需要反映多种因素,例如学生人数随时间的变化以及当地要求。基于时间序列分析的统计模型已被用作指导政策决策的方法。但是,现有的统计模型是线性的,其预测准确性较低。此外,由于影响学生人数并进而影响所需教师人数的预测的因素既有内部因素,也有外部因素,因此有必要开发一个反映这一点的模型。因此,在本研究中,使用XGBoost技术开发了基于机器学习的人工智能模型,并使用特征重要性,部分依赖图和Shap值来增加模型的解释潜力。该模型的性能小于 0.03 RMSE,并确认在几个因素中,经济活动人口对教师数量的影响最为显著。通过本研究,可以检验具有更高解释可能性的人工智能模型在预测教师数量方面的适用性。关键词:教师供给、需求预测、人工智能模型开发、XGBoost、XAI、SHAP。
摘要 - 心脏病仍然是全球健康的关注,要求对改善患者预后的早期和准确的预测。机器学习提供了有希望的工具,但是现有的方法面临准确性,阶级失衡和过度拟合问题。在这项工作中,我们提出了一种有效的可解释的递归特征消除,具有极端梯度提升(ERFEX)心脏病预测的框架。ERFEX利用可见的AI技术来识别关键特征,同时降低了阶级不平衡问题。我们在ERFEX框架内实施了各种机器学习算法,利用了支持矢量机器的合成少数群体过度采样技术(SVMSMOTE)和Shapley添加说明(SHAP),用于不平衡的集体处理和功能选择。在这些模型中,ERFEX框架内的随机森林和XGBoost分类器可实现100%的训练精度和98.23%的测试精度。此外,Shap Analysis还提供了对特征重要性的可解释见解,从而提高了模型的可信度。因此,这项工作的结果证明了Erfex对准确且可解释的心脏病预测的潜力,为改善临床决策铺平了道路。
1 IIHR—Hydroscience and Engineering, University of Iowa, Iowa City, Iowa, USA 2 Civil and Environmental Engineering, University of Iowa, Iowa City, Iowa, USA 3 Electrical and Computer Engineering, University of Iowa, Iowa City, Iowa, USA * Corresponding Author: bekirzahit-demiray@uiowa.edu Abstract Harmful algal blooms (HABs) have由于人类活动和气候变化的综合作用,影响了水生生态系统,饮用水供应系统和人类健康,因此成为了重大的环境挑战。This study investigates the performance of deep learning models, particularly the Transformer model, as there are limited studies exploring its effectiveness in HAB prediction, considering multiple influencing parameters including physical, chemical, and biological water quality monitoring data from multiple stations located west of Lake Erie, and uses Shapley Additive Explanations (SHAP) values as an explainable artificial intelligence (AI) tool to identify key input features affecting HABs.我们的发现突出了深度学习模型,尤其是变压器的优越性,捕获了水质参数的复杂动态,并为生态管理提供了可行的见解。SHAP分析将颗粒有机碳,颗粒有机氮和总磷视为影响HAB预测的关键因素。这项研究有助于开发HAB的先进预测模型,这有助于早期检测和主动管理策略。关键字:有害藻华(HAB),预测,深度学习,变压器,叶绿素-a,水质,可解释的AI,形状值。此手稿是一个地球预印本,已在同行评审期刊中提交了可能的出版物。请注意,此前尚未进行同行评审,目前正在首次接受同行评审。此手稿的后续版本可能具有略有不同的内容。
摘要 - 在这项工作中,我们检查了不对称的沙普利谷(ASV),这是流行的Shap添加剂局部解释方法的变体。ASV提出了一种改善模型解释的方法,该解释结合了变量之间已知的因果关系,并且也被视为测试模型预测中不公平歧视的一种方法。在以前的文献中未探索,沙普利值中的放松对称性可能会对模型解释产生反直觉的后果。为了更好地理解该方法,我们首先展示了局部贡献如何与降低方差的全局贡献相对应。使用方差,我们演示了多种情况,其中ASV产生了违反直觉归因,可以说为根本原因分析产生错误的结果。第二,我们将广义添加剂模型(GAM)识别为ASV表现出理想属性的限制类。我们通过证明有关该方法的多个理论结果来支持我们的学位。最后,我们证明了在多个现实世界数据集上使用不对称归因,并使用有限的模型家族进行了使用梯度增强和深度学习模型的结果进行比较。索引术语 - 解释性,摇摆,因果关系
心脏病学中的个性化治疗必不可少的是鉴定患者表型,并解释其与后期治疗后结局的关联,例如在经导管主动脉瓣置换术中。通过无监督的聚类方法获得表型后,一种方法是使用机器学习来预测群集成员资格,以解释定义每个群集的患者特征。在以前的工作中,我们由于易于解释性而使用了决策树,这在捕获数据中的复杂关系方面受到限制。我们通过将Shapley添加说明(SHAP)值与高级机器学习算法集成在一起来缓解此问题。为了展示我们的方法,我们使用来自581位TAVR患者的单中心数据确定了六个不同的患者簇,并使用K-均值进行了各种分类器来对群集成员进行分类,并具有最佳的梯度增强性能(F1得分:0.879)。形状值用于解释集群成员资格,揭示了影响结果的关键特征。例如,肌酐水平和环形区域是高风险表型的重要预测指标。这种基于Shap的方法将模型的复杂性与解释性平衡,从而为患者表型提供了强大的,详细的见解。1。简介