算法追索性是一个利用反事实解释的过程,而不仅仅是理解系统产生给定的分类的原因,还可以为用户提供他们可以采取的行动来改变其预测结果。现有的计算此类干预措施的方法(称为追索权)确定了一组满足某些Desiderata的点 - e.g。对基本因果图的干预,最大程度地减少成本函数等。需要对基本模型结构的广泛了解,这在几个领域中通常是不切实际的信息。我们提出了一个数据驱动和模型不合时宜的框架来计算反事实解释。我们介绍了步骤,这是一种计算上有效的方法,它沿数据歧管沿着数据歧管递增步骤,该步骤将用户指导用户达到所需的结果。我们表明,该步骤独特地满足了一组理想的公理。此外,通过彻底的经验和理论调查,我们表明,在沿着重要指标沿着重要指标的流行方法胜过可证明的鲁棒性和隐私保证。
摘要。人们期待人工智能能改善人类在各个领域的决策能力,尤其是高风险、困难的任务。然而,人类对人工智能建议的依赖往往是不恰当的。解决这个问题的常用方法是向决策者提供有关人工智能输出的解释,但迄今为止结果好坏参半。人们往往不清楚何时可以适当地依赖人工智能,何时解释可以提供帮助。在这项工作中,我们进行了一项实验室实验(N = 34),以研究人类对(可解释的)人工智能的依赖程度如何取决于不同决策难度引起的心理负荷。我们使用脑电图(Emotiv Epoc Flex 头罩,32 个湿电极)来更直接地测量参与者的心理负荷,而不是自我评估。我们发现,决策的难度(由诱发的心理负荷表明)强烈影响参与者适当依赖人工智能的能力,这通过相对自力更生、相对人工智能依赖以及有无人工智能的决策准确性来评估。虽然依赖对于低脑力负荷决策是合适的,但参与者在高脑力负荷决策中容易过度依赖。在这两种情况下,解释都没有显著影响。我们的结果表明,应该探索常见的“推荐和解释”方法的替代方案,以帮助人类在具有挑战性的任务中做出决策。
背景:量子计算是一种快速发展的新编程范式,它为算法的设计和实现带来了重大变化。理解量子算法需要物理和数学知识,这对软件开发人员来说可能具有挑战性。目的:在这项工作中,我们首次分析了 LLM 如何支持开发人员理解量子代码。方法:我们使用两种不同的人工编写提示风格,对七种最先进的量子算法,通过实证分析和比较三种广泛采用的 LLM(Gpt3.5、Llama2 和 Tinyllama)提供的解释质量。我们还分析了 LLM 解释在多轮中的一致性以及 LLM 如何改进现有的量子算法描述。结果:Llama2 从头开始提供最高质量的解释,而 Gpt3.5 成为最适合改进现有解释的 LLM。此外,我们表明,在提示中添加少量上下文可以显着提高解释的质量。最后,我们观察了解释在多轮中在质量和句法上如何保持一致。结论:这项工作突出了有希望的结果,并为未来在量子代码解释的 LLM 领域的研究提出了挑战。未来的工作包括通过快速优化和解析量子代码解释来改进方法,以及对解释的质量进行系统评估。
摘要:背景:创建模型来区分自我报告的心理工作量感知具有挑战性,需要机器学习来识别脑电图信号中的特征。脑电图频带比率量化了人类活动,但对心理工作量评估的研究有限。本研究评估了使用 theta-to-alpha 和 alpha-to-theta 脑电图频带比率特征来区分人类自我报告的心理工作量感知。方法:在本研究中,分析了 48 名参与者在休息和任务密集型活动时的脑电图数据。使用不同的脑电图通道簇和频带比率开发了多个心理工作量指标。使用 ANOVA 的 F 分数和 PowerSHAP 提取统计特征。同时,使用逻辑回归、梯度提升和随机森林等技术建立和测试模型。然后用 Shapley 加法解释来解释这些模型。结果:根据结果,使用 PowerSHAP 选择特征可以提高模型性能,在三个心理工作量指数中表现出超过 90% 的准确率。相比之下,用于模型构建的统计技术表明所有心理工作量指数的结果都较差。此外,使用 Shapley 值来评估特征对模型输出的贡献,可以注意到,ANOVA F 分数和 PowerSHAP 测量中重要性较低的特征在确定模型输出方面发挥了最重要的作用。结论:使用具有 Shapley 值的模型可以降低数据复杂性并改进对感知人类心理工作量的更好判别模型的训练。但是,由于选择过程中特征的重要性及其对模型输出的实际影响有所不同,因此结果有时可能不明确。
本文已由Efrag秘书处准备在Efrag Sr Teg的一次公开会议上进行讨论。本文构成了潜在EFRAG位置发展的早期阶段的一部分。因此,本文不代表Efrag的官方观点或Efrag SRB或Efrag Sr Teg的任何个人。该论文可供使用,使公众能够遵循会议中的讨论。暂定决定是在公开场合做出的,并在EFRAG更新中进行了报告。eFrag职位作为评论信,讨论或职位论文或在这种情况下被认为适当的任何其他形式发表。已经起草了每个解释的内容,以提供特定技术问题的答案,并且不能通过类比直接扩展到其他事实模式。
摘要:许多机器人学习方法首先从一组人类示范中推断出奖励功能。要学习良好的奖励,有必要在确定应如何使用这些功能来计算奖励之前确定环境的哪些功能。联合特征和奖励学习的端到端方法(例如,使用深网或程序合成技术)通常会产生对虚假国家敏感的脆弱奖励功能。相比之下,人类通常可以通过将强大的先验纳入少量的示范中,从而可以从少量的示范中学习,以了解示威的特征可能对感兴趣的任务有意义。在从新演示中学习时,我们如何构建利用这种背景知识的机器人?本文介绍了一种名为藻类的方法(来自[对比]解释的自适应语言引导的处理),该方法在使用语言模型来迭代地识别所需的人类卑鄙的特征之间交替,然后识别出所需的人类卑鄙的特征,然后识别出标准的逆增强学习技术,将权重分配给这些特征。在各种模拟和现实世界机器人环境中进行的实验表明,藻类仅使用少量的示例来学习在可解释的特征上定义的可通用奖励功能。重要的是,藻类可以识别何时缺少功能,然后提取并定义这些功能而无需任何人类输入,从而可以快速有效地获得对用户行为的丰富表示形式。
摘要 机器学习 (ML) 越来越多地融入各个领域的决策制定,引发了人们对道德、合法性、可解释性和安全性的担忧,凸显了人类监督的必要性。作为回应,可解释人工智能 (XAI) 应运而生,它通过提供对 ML 模型决策的洞察,并让人类了解底层逻辑,从而成为一种增强透明度的手段。尽管现有的 XAI 模型具有潜力,但通常缺乏实用性,无法提高人机性能,因为它们可能会引入过度依赖等问题。这强调了以人为本的 XAI 需要进一步研究,以提高当前 XAI 方法的可用性。值得注意的是,目前的大部分研究都集中在 XAI 与个体决策者之间的一对一互动上,忽视了现实世界场景中人类群体使用 XAI 进行集体决策协作的多对一关系的动态。在这项最新工作中,我们借鉴了以人为中心的XAI研究的当前成果,并讨论了如何将XAI设计过渡到群体AI交互。我们讨论了XAI从人机交互过渡到群体AI交互的四个潜在挑战。本文有助于推动以人为中心的XAI领域的发展,促进群体XAI交互的讨论,呼吁在该领域进一步研究。关键词 可解释AI,群体AI交互,交互设计
抽象知识图(kgs)自然能够捕获数据和知识的收敛性,从而使它们成为高度表达的框架,用于以连贯和互连的方式描述和集成异质数据。然而,基于开放世界假设(OWA),kgs中没有信息并不表示虚假或不存在;它仅反映了不完整。使用数值或符号学习模型,基于KG中现有的事实陈述来预测基于现有的事实陈述的新关系。最近,知识图嵌入(KGE)和符号学习在各种下游任务(包括链接预测(LP))中受到了相当大的关注。LP技术采用实体及其关系的潜在矢量代表来推断缺失的链接。此外,随着KGS产生的数据数量的不断增加,进行额外质量评估和验证工作的必要性变得更加明显。尽管如此,最新的kg完成方法在产生预测的同时未能考虑质量约束,从而导致建立有错误关系的kg。在医疗保健决策的背景下,准确的数据和见解的产生至关重要,包括诊断过程,治疗策略的制定以及实施预防措施。我们提出了一种混合方法,即Vise,该方法采用了符号学习,约束验证和数值学习技术的整合。Vise利用KGE捕获隐式知识并表示kg中的否定,从而增强了数值模型的预测性能。我们的实验结果证明了这种混合策略的有效性,该策略结合了符号,数值和约束验证范式的优势。VISE实施是在GitHub(https://github.com/sdm-tib/vise)上公开访问的。
反事实说明通过回答“如果”方案,阐明了复杂的系统决策,表明最小输入变化如何导致不同的结果[1]。这对于机器学习(ML)至关重要,其中了解模型的理由与决策本身一样重要[2]。通过检查假设的替代方法,反事实解释使ML模型的决策更加透明和可理解。尽管对反事实解释的兴趣越来越大,但文献上存在有关用于创建它们的生成方法的差距。变异自动编码器(VAES)[3],生成对抗网络(GAN)[4]和deno的扩散概率模型(DDPMS)[5]非常值得注意,尤其是生成反事实,尤其是对于复杂的数据模态,例如图像等复杂的数据模态,在其中调整了不隔离的功能。但是,现有的调查通常忽略生成方面或高维数据方案[6,7,8]。我们的工作通过着重于复杂数据中的反事实解释的生成模型来解决这一差距,从而对其能力和局限性提供了全面的理解。在本文中,我们探讨了反事实解释的生成模型的常见用例,并突出了主要的挑战。我们通过其生成技术对方法进行分类,并检查对标准过程的修改,以满足反事实要求。我们的讨论旨在通过确定反事实解释中推进生成方法的关键挑战和潜在方向来刺激进一步的研究。while
1引言作为可解释的AI(XAI)的领域已经成熟,反对解释(CES)已成为解释AI模型的主要事后方法之一(例如,请参见,例如,参见,例如[Karimi等。,2022]用于概述)。ces通常被提倡作为为受到机器学习模型决定影响的个人提供追索权的一种手段。特别是,给定对M模型M的输入X,CE基本上向用户展示了一个新的,稍微修改的输入X',这表明如果将所做的更改应用于X,则如何实现不同的结果。为了插图,将虚构的贷款申请与功能收入£50 K,贷款期限为35个月,贷款金额£10 K被模型拒绝。在此示例中,CE可以证明将收入提高到55英镑将导致申请被接受。鉴于部署了CE的许多情况的批判性质,例如在财务或医疗环境中,他们提供的追索权是最重要的,即它给出了预期的结果变化,从而给予了信任。然而,最近的工作表明,在鲁棒性方面,获得CES的最新方法是获得主要缺点,即在不断变化的条件下,它们产生的CE的有效性。,特别是[Pawelczyk等。,2022年]表明,生成CE的流行方法可能会返回与对抗性例子没有区别的解释。广泛地说,这意味着CES