摘要 - 在这项工作中,我们检查了不对称的沙普利谷(ASV),这是流行的Shap添加剂局部解释方法的变体。ASV提出了一种改善模型解释的方法,该解释结合了变量之间已知的因果关系,并且也被视为测试模型预测中不公平歧视的一种方法。在以前的文献中未探索,沙普利值中的放松对称性可能会对模型解释产生反直觉的后果。为了更好地理解该方法,我们首先展示了局部贡献如何与降低方差的全局贡献相对应。使用方差,我们演示了多种情况,其中ASV产生了违反直觉归因,可以说为根本原因分析产生错误的结果。第二,我们将广义添加剂模型(GAM)识别为ASV表现出理想属性的限制类。我们通过证明有关该方法的多个理论结果来支持我们的学位。最后,我们证明了在多个现实世界数据集上使用不对称归因,并使用有限的模型家族进行了使用梯度增强和深度学习模型的结果进行比较。索引术语 - 解释性,摇摆,因果关系
摘要 — 虽然可解释人工智能 (XAI) 的应用领域日益广泛,但很少有应用使深度强化学习 (RL) 更易于理解。随着 RL 变得无处不在并用于关键和一般公共应用,开发使其更易于理解和解释的方法至关重要。本研究提出了一种使用 Shapley 值解释多智能体 RL 中合作策略的新方法,Shapley 值是 XAI 中使用的博弈论概念,成功解释了机器学习算法决策背后的原理。通过在两个以合作为中心的社会挑战多智能体环境中测试该技术的常见假设,本文认为 Shapley 值是评估合作多智能体 RL 环境中玩家贡献的一种恰当方法。为了减轻此方法的高开销,使用蒙特卡洛抽样来近似 Shapley 值。多智能体粒子和顺序社交困境的实验结果表明,Shapley 值能够成功估计每个智能体的贡献。这些结果可能具有超越经济学博弈的意义(例如,对于非歧视性决策、道德和负责任的 AI 决策或公平约束下的政策制定)。它们还揭示了 Shapley 值如何仅对模型提供一般性解释,而无法解释单次运行、情节,也无法证明智能体采取的精确行动。未来的工作应侧重于解决这些关键方面。
摘要:背景:创建模型来区分自我报告的心理工作量感知具有挑战性,需要机器学习来识别脑电图信号中的特征。脑电图频带比率量化了人类活动,但对心理工作量评估的研究有限。本研究评估了使用 theta-to-alpha 和 alpha-to-theta 脑电图频带比率特征来区分人类自我报告的心理工作量感知。方法:在本研究中,分析了 48 名参与者在休息和任务密集型活动时的脑电图数据。使用不同的脑电图通道簇和频带比率开发了多个心理工作量指标。使用 ANOVA 的 F 分数和 PowerSHAP 提取统计特征。同时,使用逻辑回归、梯度提升和随机森林等技术建立和测试模型。然后用 Shapley 加法解释来解释这些模型。结果:根据结果,使用 PowerSHAP 选择特征可以提高模型性能,在三个心理工作量指数中表现出超过 90% 的准确率。相比之下,用于模型构建的统计技术表明所有心理工作量指数的结果都较差。此外,使用 Shapley 值来评估特征对模型输出的贡献,可以注意到,ANOVA F 分数和 PowerSHAP 测量中重要性较低的特征在确定模型输出方面发挥了最重要的作用。结论:使用具有 Shapley 值的模型可以降低数据复杂性并改进对感知人类心理工作量的更好判别模型的训练。但是,由于选择过程中特征的重要性及其对模型输出的实际影响有所不同,因此结果有时可能不明确。
使用基于已知数据生成过程的合成数据集(可以在Li,2024年)和房价建模的经验例子进行证明。在这里,我使用了一个包含16,581个物业销售记录的西雅图房屋价格数据集。财产价格日志对8个住房属性以及物业的位置(坐标)进行了回归。测试了多个机器学习模型,最佳性能模型是XGBoost,样本外R²值为0.91。然后,Geoshapley值然后用于解释受过训练的XGBOOST模型。下图显示了从上到下的特征重要性排名的摘要图。Geoshapley值此处衡量百分比变化为财产价格。位置(GEO)的贡献是影响房屋价格的最重要功能,将其降低多达43%或将其价值增加多达123%,具体取决于该位置。住房特征(包括起居区和等级的平方英尺)非常重要。
在定向能量沉积 (DED) 中,局部材料微观结构和抗拉强度由零件上每个空间位置经历的热历史决定。虽然先前的研究已经调查了热历史对机械性能的影响,但仍然需要一种物理上可解释、简约且具有良好预测精度的抗拉强度预测模型。本文研究了一种基于 Shapley 加性解释 (SHAP) 模型解释的数据驱动预测模型来解决这一问题。首先,将从先前的实验工作中翻译出来的物理上有意义的热特征用作神经网络的输入,以进行抗拉性能预测。然后计算各个输入特征的 SHAP 值,以量化它们各自对抗拉性能预测的影响,并使用累积相对方差 (CRV) 度量降低模型复杂性。对实验获得的 Inconel 718 (IN718) 抗拉强度的预测表明,通过开发的方法量化的特征影响可以通过先前研究的结果来验证,从而证实了神经网络预测逻辑的物理可解释性。此外,基于CRV的模型复杂度降低表明,简约模型只需要不到10%的原始特征即可达到与先前文献报道相同的拉伸强度预测精度,从而证明了基于SHAP的特征降低方法在改进DED过程表征方面的有效性。
2 鉴于数据集的不平衡,使用精确度-召回率曲线下面积 (PRAUC) 作为准确度指标 [21]。3 首先,排除观察次数少于 10 次的参与者,以便在 5 倍交叉验证方案中每倍至少有 2 次观察。其次,如果用户的观察结果只对应于一个结果(即,他们总是做这项练习或从不做这项练习),他们也会被排除,因为如果没有两个类别,则多个模型是未定义的。排除后会剩下一组 26 位用户,称为热启动队列。4 使用 5 个外倍,并报告保留倍的平均准确度。对于组倍,超参数在 5 个内倍上进行优化。但是,由于每个参与者可用的数据量很少,因此不会在个体级别模型上执行超参数调整。在这两个层面上,折叠都是随时间随机化的,这样可以减轻由季节影响(例如假期开始)引起的任何偏差。
数据和计算能力的不断增长使得开发具有高度预测性的机器学习模型成为可能。另一方面,考虑到对具有重大社会影响的活动可能产生的不利后果,政策制定者和监管者对人工智能应用产生了一定程度的怀疑。为了在保护社会的同时促进创新,人们开始就开发可解释的人工智能 (XAI) 方法达成共识,即能够使机器学习模型可解释并因此被理解的方法,特别是在因果发现方面。事实上,近年来,人工智能应用和产品的日益普及,促使政策制定者和监管者要求底层机器学习模型是可解释的,以便人类用户能够理解它们:例如,参见欧洲委员会 (2020) 最近的论文。这一要求在受到严格监管的经济部门(如卫生和金融)中尤为明显。根据政策要求,研究人员最近讨论了如何使机器学习模型可解释的问题。现有论文将内容分为不同的解释类别。这些方法的详细评论可以在 Guidotti 等人 (2018) 中找到。本文仅关注两种方法:全局解释和局部解释。这是因为我们的提议是局部解释和全局解释相结合的结果。虽然全局解释描述了整个模型,即哪些解释变量最能决定其预测,但对于所有统计