机器学习 (ML) 技术的广泛应用使得对能够训练 ML 模型的人员的需求日益增长。一些人提倡使用“机器教师”一词来指代将领域知识注入 ML 模型的人员。这种“教学”观点强调通过高效的学习算法和精心设计的人机界面来支持机器教师的生产力和心理健康。一种有前途的学习范式是主动学习 (AL),通过这种模式,模型可以智能地选择实例来向机器教师查询标签,从而大大减少标记工作量。然而,在当前的 AL 设置中,人机界面仍然很小且不透明。缺乏实证研究进一步阻碍了我们为 AL 算法开发教师友好的界面。在这项工作中,我们开始将 AI 解释视为教学机器的人机界面的核心元素。当人类学生学习时,展示自己的推理并征求老师的反馈是一种常见的模式。当 ML 模型学习但仍然犯错时,老师应该能够理解其错误背后的推理。当模型成熟时,教师应该能够认识到其进展,从而信任并对教学结果充满信心。为了实现这一愿景,我们提出了一种可解释主动学习 (XAL) 的新范式,将新兴的可解释人工智能 (XAI) 领域的技术引入 AL 环境。我们进行了一项实证研究,比较了 XAL 的模型学习成果、反馈内容和体验,以及传统 AL 和共同学习(提供模型的预测但不提供解释)。我们的研究显示了人工智能解释作为机器教学界面的优势——支持信任校准并实现丰富的教学反馈形式,以及潜在的缺点——锚定效应与模型判断和额外的认知工作量。我们的研究还揭示了影响机器教师接受人工智能解释的重要个人因素,包括任务知识、人工智能经验和认知需求。通过反思结果,我们为 XAL 以及更广泛地说,通过人工智能解释进行机器教学提出了未来的方向和设计启示。
摘要。人们期待人工智能能改善人类在各个领域的决策能力,尤其是高风险、困难的任务。然而,人类对人工智能建议的依赖往往是不恰当的。解决这个问题的常用方法是向决策者提供有关人工智能输出的解释,但迄今为止结果好坏参半。人们往往不清楚何时可以适当地依赖人工智能,何时解释可以提供帮助。在这项工作中,我们进行了一项实验室实验(N = 34),以研究人类对(可解释的)人工智能的依赖程度如何取决于不同决策难度引起的心理负荷。我们使用脑电图(Emotiv Epoc Flex 头罩,32 个湿电极)来更直接地测量参与者的心理负荷,而不是自我评估。我们发现,决策的难度(由诱发的心理负荷表明)强烈影响参与者适当依赖人工智能的能力,这通过相对自力更生、相对人工智能依赖以及有无人工智能的决策准确性来评估。虽然依赖对于低脑力负荷决策是合适的,但参与者在高脑力负荷决策中容易过度依赖。在这两种情况下,解释都没有显著影响。我们的结果表明,应该探索常见的“推荐和解释”方法的替代方案,以帮助人类在具有挑战性的任务中做出决策。
人工智能研究界对开发能够向用户解释其行为的自主系统的兴趣日益浓厚。然而,为不同专业水平的用户计算解释的问题却很少受到研究关注。我们提出了一种解决这个问题的方法,即将用户对任务的理解表示为规划器使用的领域模型的抽象。我们提出了在不知道这种抽象人类模型的情况下生成最小解释的算法。我们将生成解释的问题简化为对抽象模型空间的搜索,并表明虽然整个问题是 NP 难的,但贪婪算法可以提供最佳解决方案的良好近似值。我们通过经验表明,我们的方法可以有效地计算各种问题的解释,并进行用户研究以测试状态抽象在解释中的效用。
近年来,解释机器学习模型的算法方法激增。我们进行了首次以人为本的测试,以分离算法解释对模型可解释性的关键方面(可模拟性)的影响,同时避免重要的混杂实验因素。当一个人能够预测其对新输入的行为时,该模型是可模拟的。通过两种涉及文本和表格数据的模拟测试,我们评估了五种解释方法:(1)LIME,(2)Anchor,(3)决策边界,(4)原型模型,以及(5)结合每种方法的解释的复合方法。在极少数情况下,方法的有效性得到了明确的证据:LIME 提高了表格分类的可模拟性,而我们的原型方法在反事实模拟测试中是有效的。我们还收集了解释的主观评分,但我们发现评分并不能预测解释的有用程度。我们的结果首次提供了可靠而全面的估计,表明解释如何影响各种解释方法和数据域的可模拟性。我们表明 (1) 我们需要谨慎使用用于评估解释方法的指标,(2) 当前方法还有很大的改进空间。1
摘要:姿势污点,例如倍血差(空心背部)或高温(Hunchback)是相关的健康问题。诊断取决于检查员的经验,因此通常是主观的,容易出现错误。机器学习(ML)方法与可解释的人工智能(XAI)工具结合使用,已被证明可用于提供基于数据的基于目标的方向。但是,只有少数作品考虑了姿势参数,因此仍然没有受到人类友好的XAI解释的潜力。因此,目前的工作提出了一个具有数据驱动的医疗决策支持的Objeccive,用于医疗决策支持的ML系统,该系统可以使用反事实解释(CFS)特别对人类友好的解释。通过立体图表测量记录了1151名受试者的姿势数据。最初是对受试者的基于专家的分类,最初是在存在倍差或高温的存在的。使用高斯进度分类器,使用CFS对模型进行了训练和解释。使用置信度学习对标签误差进行了反弹和重新评估。发现了倍血分和高温的非常好的分类性能,从而重新评估和校正测试标签导致了显着改善(M prauc = 0.97)。统计评估表明,总体而言,CFS似乎是合理的。在个性化医学的背景下,本研究的方法对于减少诊断错误并从而改善了治疗措施的个人适应性可能非常重要。同样,它可能是开发预防姿势评估的应用程序的基础。
术后谵妄(POD)是老年髋部骨折患者常见且严重的并发症。识别出POD的高危患者有助于改善髋部骨折患者的预后。我们对2014年1月至2019年8月期间接受骨科手术治疗髋部骨折的老年患者(≥65岁)进行了回顾性研究。采用常规逻辑回归和五种机器学习算法建立POD的预测模型。采用逻辑回归方法构建POD预测列线图。计算受试者工作特征曲线下面积(AUC-ROC)、准确度、灵敏度和精确度来评估不同的模型。使用Shapley加性解释(SHAP)解释个体的特征重要性。约797名患者参加了该研究,POD的发生率为9.28%(74/797)。年龄、肾功能不全、慢性阻塞性肺病 (COPD)、抗精神病药物的使用、乳酸脱氢酶 (LDH) 和 C 反应蛋白用于构建 POD 的列线图,AUC 为 0.71。五种机器学习模型的 AUC 分别为 0.81(随机森林)、0.80(GBM)、0.68(AdaBoost)、0.77(XGBoost)和 0.70(SVM)。六种模型的敏感度范围从 68.8%(逻辑回归和 SVM)到 91.9%(随机森林)。六种机器学习模型的精确度范围从 18.3%(逻辑回归)到 67.8%(SVM)。使用逻辑回归和五种机器学习算法构建了髋部骨折患者 POD 的六种预测模型。机器学习算法的应用可以提供便捷的 POD 风险分层,使老年髋部骨折患者受益。
自深度学习革命以来,人工智能取得了长足进步,但人工智能系统仍然难以在其训练数据之外进行推断并适应新情况。为了获得灵感,我们将目光投向了科学领域,科学家们已经能够开发出表现出非凡推断能力的理论,有时甚至可以预测从未观察到的现象的存在。根据 David Deutsch 的说法,这种被他称为“延伸”的推断是由于科学理论难以改变。在本文中,我们研究了 Deutsch 的难以改变原则以及它与深度学习中更形式化的原则(如偏差-方差权衡和奥卡姆剃刀)的关系。我们区分了内部可变性(模型/理论在内部可以改变多少同时仍能产生相同的预测)和外部可变性(模型必须改变多少才能准确预测新的、超出分布的数据)。我们讨论了如何使用罗生门集的大小来测量内部变异性,以及如何使用柯尔莫哥洛夫复杂度来测量外部变异性。我们通过观察人脑来探索难以改变的解释在智力中扮演的角色,并区分大脑中的两个学习系统。第一个系统的运作方式类似于深度学习,可能构成了大多数感知和运动控制的基础,而第二个系统是一个更具创造性的系统,能够生成难以改变的世界解释。我们认为,弄清楚如何复制这个能够生成难以改变的解释的第二个系统是实现通用人工智能所需要解决的关键挑战。我们与波普尔认识论的框架取得了联系,该框架拒绝归纳,并断言知识产生是一个通过猜想和反驳进行的进化过程。
摘要可解释人工智能系统的一个核心假设是,解释会改变用户所知道的内容,从而使他们能够在复杂的社会技术环境中采取行动。尽管行动是中心,但解释通常是根据技术方面进行组织和评估的。先前的研究在解释中提供的信息与由此产生的用户操作之间的联系方面存在很大差异。在评估中以行动为中心的一个重要的第一步是了解 XAI 社区共同认可的解释可以呈现的信息范围以及与之相关的操作。在本文中,我们提出了我们的框架,该框架将先前的研究映射到解释和用户操作中呈现的信息上,并讨论了我们发现的有关呈现给用户的信息的差距。
,我们为在财务上最复杂的小企业之一的P2P贷款中提出了一种全面的利润敏感方法。通过包括利润以及在建模过程的三个方面引入利润信息,我们超越了传统和成本敏感的方法:分类算法的学习功能(我们的情况下XGBOOST),超参数优化和决策功能。在小型企业案例中,通过授予大部分较低风险的低风险较低贷款,在分析的小企业案例中,利润敏感的方法比利益敏感的方法获得了更高的盈利能力。解释性工具可帮助我们发现此类贷款的关键特征。只要错误分类矩阵的细胞具有经济价值,我们的建议可以扩展到其他贷款市场或其他分类问题。
在定向能量沉积 (DED) 中,局部材料微观结构和抗拉强度由零件上每个空间位置经历的热历史决定。虽然先前的研究已经调查了热历史对机械性能的影响,但仍然需要一种物理上可解释、简约且具有良好预测精度的抗拉强度预测模型。本文研究了一种基于 Shapley 加性解释 (SHAP) 模型解释的数据驱动预测模型来解决这一问题。首先,将从先前的实验工作中翻译出来的物理上有意义的热特征用作神经网络的输入,以进行抗拉性能预测。然后计算各个输入特征的 SHAP 值,以量化它们各自对抗拉性能预测的影响,并使用累积相对方差 (CRV) 度量降低模型复杂性。对实验获得的 Inconel 718 (IN718) 抗拉强度的预测表明,通过开发的方法量化的特征影响可以通过先前研究的结果来验证,从而证实了神经网络预测逻辑的物理可解释性。此外,基于CRV的模型复杂度降低表明,简约模型只需要不到10%的原始特征即可达到与先前文献报道相同的拉伸强度预测精度,从而证明了基于SHAP的特征降低方法在改进DED过程表征方面的有效性。