人工智能解释经常被提及作为改善人类与人工智能决策的一种方式,但实证研究并未发现解释有效性的一致证据,相反,当人工智能系统出错时,解释可能会增加过度依赖。虽然许多因素可能会影响对人工智能支持的依赖,但一个重要因素是决策者如何协调自己的直觉——基于先前知识、经验或模式识别的信念或启发式方法,用于做出判断——与人工智能系统提供的信息,以确定何时推翻人工智能预测。我们对两个预测任务进行了一项有声思考、混合方法研究,采用两种解释类型(基于特征和基于示例),以探索决策者的直觉如何影响他们对人工智能预测和解释的使用,并最终影响他们何时依赖人工智能的选择。我们的结果确定了推理人工智能预测和解释所涉及的三种直觉类型:关于任务结果的直觉、特征和人工智能限制。在此基础上,我们总结了三种可供决策者运用自己的直觉并推翻人工智能预测的途径。我们利用这些途径来解释为什么 (1) 我们使用的特征型解释并没有改善参与者的决策结果,反而增加了他们对人工智能的过度依赖,以及 (2) 我们使用的示例型解释比基于特征的解释提高了决策者的表现,并有助于实现人机互补的表现。总的来说,我们的工作确定了人工智能决策支持系统和解释方法的进一步发展方向,帮助决策者有效地运用直觉,实现对人工智能的适当依赖。
我们提出了一种基于保证金的损失,用于调整联合视觉语言模型,以便其基于梯度的解释与人类为相对较小的接地数据集提供的区域级注释一致。我们将这一目标作为注意掩盖一致性(AMC),并证明它比以前依靠使用视觉模型来评分对象检测器的输出的方法产生了较高的视觉接地结果。尤其是,在标准视觉模型目标之上训练AMC的模型获得了86的最新精度。在Flickr30k视觉接地基准中49%,绝对改进为5。38%与在相同水平的监督下训练的最佳先前型号时。我们的方法在既定的基准中都表现出色,可以在易于测试中获得80.34%的准确性,而在较难分裂中获得了80.34%的准确性,而在易于测试中的精度为64.55%。AMC有效,易于实现,并且是一般的,因为任何视觉模型都可以采用,并且可以使用任何类型的区域注释。
近年来,可解释人工智能 (XAI) 方法的实证评估文献越来越多。本研究通过对一组已建立的 XAI 方法在人工智能辅助决策中的效果进行比较,为这一持续的讨论做出了贡献。基于对先前文献的回顾,我们强调了理想的人工智能解释应该满足的三个理想属性——提高人们对人工智能模型的理解、帮助人们认识到模型的不确定性以及支持人们对模型的校准信任。通过三项随机对照实验,我们评估了四种常见的与模型无关的可解释人工智能方法是否在两种复杂程度不同的人工智能模型和两种人们认为自己具有不同领域专业知识水平的决策环境中满足这些属性。我们的结果表明,许多人工智能解释在用于人们缺乏领域专业知识的决策任务时,都不满足任何理想属性。在人们知识更丰富的决策任务上,即使人工智能模型本身就很复杂,特征贡献解释也能满足人工智能解释的更多要求。最后,我们讨论了我们的研究对改进 XAI 方法的设计以更好地支持人类决策以及推进更严格的 XAI 方法实证评估的意义。
相互依存地朝着共同目标前进。我们将此实体称为 HRT。然而,即使在 USAR 环境中引入机器人技术,许多 USAR 任务仍然依赖于沟通能力有限或仅能向人类操作员显示简单机器人状态元素的机器人。尽管机器人状态信息很重要,但这种类型的沟通不需要 HRT 进行深入交流,这使得人类操作员更多地扮演监控者或监督者的角色,而不是队友,团队互动仅限于询问机器人队友或在机器人队友的限制范围内工作。因此,USAR 机器人有限或缺乏沟通能力可能会阻碍 HRT 的有效性,导致机器人被视为依赖关系中的工具,而不是相互依赖关系中的队友。这种客观性虽然在某些决策环境下(例如对工具的信任进行适当校准)很重要,但也可能阻碍人类同行与能力日益增强的机器人建立信任和互动团队认知的基础。信任和互动团队认知是高效团队的重要组成部分(Cooke 等人,2013;Schaefer,2016)。在将机器人融入 HRT 时,由于机器人自动化故障的必然性,人们更倾向于从团队合作的角度而不是工具的角度来考虑(Honig & Oron-Gilad,2021)。意外的机器人故障——即使这些故障可以归因于环境因素而非技术因素——通常会导致人类信任度下降,并可能导致机器人队友被视为不可预测或不可靠。这种性质的机器人故障表明,需要找到解决方案来解决半自主机器人队友的缺点,以更好地发挥他们作为有用队友的潜力。考虑到这一点,本研究的目的是探索机器人的解释和透明度如何影响 HRT 中的人类信任和态势感知,并量化模拟环境中 HRT 沟通的最佳模式。
摘要可解释人工智能系统的一个核心假设是,解释会改变用户所知道的内容,从而使他们能够在复杂的社会技术环境中采取行动。尽管行动是中心,但解释通常是根据技术方面进行组织和评估的。先前的研究在解释中提供的信息与由此产生的用户操作之间的联系方面存在很大差异。在评估中以行动为中心的一个重要的第一步是了解 XAI 社区共同认可的解释可以呈现的信息范围以及与之相关的操作。在本文中,我们提出了我们的框架,该框架将先前的研究映射到解释和用户操作中呈现的信息上,并讨论了我们发现的有关呈现给用户的信息的差距。
摘要:姿势污点,例如倍血差(空心背部)或高温(Hunchback)是相关的健康问题。诊断取决于检查员的经验,因此通常是主观的,容易出现错误。机器学习(ML)方法与可解释的人工智能(XAI)工具结合使用,已被证明可用于提供基于数据的基于目标的方向。但是,只有少数作品考虑了姿势参数,因此仍然没有受到人类友好的XAI解释的潜力。因此,目前的工作提出了一个具有数据驱动的医疗决策支持的Objeccive,用于医疗决策支持的ML系统,该系统可以使用反事实解释(CFS)特别对人类友好的解释。通过立体图表测量记录了1151名受试者的姿势数据。最初是对受试者的基于专家的分类,最初是在存在倍差或高温的存在的。使用高斯进度分类器,使用CFS对模型进行了训练和解释。使用置信度学习对标签误差进行了反弹和重新评估。发现了倍血分和高温的非常好的分类性能,从而重新评估和校正测试标签导致了显着改善(M prauc = 0.97)。统计评估表明,总体而言,CFS似乎是合理的。在个性化医学的背景下,本研究的方法对于减少诊断错误并从而改善了治疗措施的个人适应性可能非常重要。同样,它可能是开发预防姿势评估的应用程序的基础。
人工智能算法辅助在高风险决策中的应用越来越多,这引起了人们对可解释人工智能 (xAI) 的兴趣,以及反事实解释在增加人机协作信任和减轻不公平结果方面的作用。然而,在理解可解释人工智能如何改善人类决策方面,研究还很有限。我们进行了一项在线实验,共有 559 名参与者参与,利用“算法在环”框架和现实世界的审前数据,研究从最先进的机器学习解释方法(通过 DiCE 的反事实解释和通过 SHAP 的事实解释)生成的算法审前风险评估的解释如何影响决策者对累犯的评估质量。我们的结果表明,反事实和事实解释实现了不同的理想目标(分别改善人类对模型准确性、公平性和校准的评估),但仍未提高人类预测的综合准确性、公平性和可靠性——重申了 xAI 对社会技术、实证评估的需求。我们最后讨论了用户对 DiCE 反事实解释的反馈,以及我们的结果对人工智能辅助决策和人工智能的更广泛影响。 xAI。
摘要 在过去的几年中,计算机辅助药物再利用方法开始受到更多关注,因为它们提供了一种更快、更有效的治疗多种疾病的方法。虽然这些方法在预测能力方面很有前景,但由于其高度复杂的工作机制限制了它们的可解释性,因此在实践中使用这些方法仍然存在犹豫。可解释人工智能 (XAI) 以透明度、可解释性和信息性为主要基础,可以解决黑盒模型的局限性。在这种情况下,知识图谱 (KG) 可以利用生物医学领域提供给用户的解释,因为它们能够以语义一致的方式表示实体之间的关系。知识图谱有可能生成基于图形的表示,同时提供上下文,使其易于被人类解释。在本文中,我们提出了一种方法,即基于 KG 的可解释 AI 框架,用于药物再利用领域,作为 PREDICT 方法的扩展。该方法的核心是通过从输入中提取相关路径来生成基于相似性的解释,输入包括一种疾病和一种预测的治疗该疾病的药物。为了证明这种方法的实用性,我们通过对阿尔茨海默病进行用例来演示如何使用 KG 中使用的图形操作来生成合理的解释。我们的研究结果表明,利用生物医学 KG 和这种方法具有提供透明解释的巨大潜力,因为它能够说明与目标输入非常相关的药物、疾病实体之间的关系。将这种方法应用于药物再利用和其他类似领域,可能有助于克服计算药物再利用模型的黑箱性质所造成的局限性,并可能成为增强对模型决策过程的理解和简化领域专家和计算机科学家之间的科学交流的有力工具。
大型语言模型越来越能够在相对较少的任务特定监督下生成流畅的文本。但这些模型能准确地解释分类决策吗?我们考虑使用人工编写的示例以少量方式生成自由文本解释的任务。我们发现 (1) 编写更高质量的提示会产生更高质量的生成; (2) 令人惊讶的是,在面对面的比较中,众包工作者通常更喜欢 GPT-3 生成的解释,而不是现有数据集中的众包解释。然而,我们的人类研究还表明,虽然模型通常会产生事实、语法和充分的解释,但它们在提供新信息和支持标签等方面还有改进空间。我们创建了一个管道,将 GPT-3 与一个监督过滤器相结合,该过滤器将来自人类的二元可接受性判断纳入循环中。尽管可接受性判断具有内在的主观性,但我们证明可接受性与解释的各种细粒度属性部分相关。我们的方法能够一致地过滤 GPT-3 生成的被人类认为可以接受的解释。
干扰项解释:选项 A 不正确,因为尽管文章表明 O'Brien 和 Ahmed 得出的结论与其他研究人员不同,但它并没有使用 O'Brien 和 Ahmed 的研究来批评这些早期研究的开展方式或直接质疑这些研究结果的准确性。选项 B 不正确,因为尽管文章表明研究结果发现姿势和认知之间存在联系被夸大了,但它没有提供任何证据表明 O'Brien 和 Ahmed 的研究经常被误解。选项 C 不正确,因为文章表明尽管 O'Brien 和 Ahmed 对研究姿势和认知问题很感兴趣,但它并没有表明这些研究人员在进行研究之前的想法,也没有表明研究人员专门着手解决某个问题。