人工智能 (AI) 技术与人类工作流程的日益融合,带来了人工智能辅助决策的新范式,即人工智能模型提供决策建议,而人类做出最终决策。为了最好地支持人类决策,定量了解人类如何与人工智能互动和依赖人工智能至关重要。先前的研究通常将人类对人工智能的依赖建模为一个分析过程,即依赖决策是基于成本效益分析做出的。然而,心理学的理论模型表明,依赖决策往往是由情感驱动的,比如人类对人工智能模型的信任。在本文中,我们提出了一个隐马尔可夫模型来捕捉人工智能辅助决策中人机交互背后的情感过程,通过描述决策者如何随着时间的推移调整对人工智能的信任并基于他们的信任做出依赖决策。对从人类实验中收集的真实人类行为数据的评估表明,所提出的模型在准确预测人类在人工智能辅助决策中的依赖行为方面优于各种基线。基于所提出的模型,我们进一步深入了解了人类在人工智能辅助决策中的信任和依赖动态如何受到决策利害关系和交互经验等情境因素的影响。
近年来,可解释人工智能 (XAI) 方法的实证评估文献越来越多。本研究通过对一组已建立的 XAI 方法在人工智能辅助决策中的效果进行比较,为这一持续的讨论做出了贡献。基于对先前文献的回顾,我们强调了理想的人工智能解释应该满足的三个理想属性——提高人们对人工智能模型的理解、帮助人们认识到模型的不确定性以及支持人们对模型的校准信任。通过三项随机对照实验,我们评估了四种常见的与模型无关的可解释人工智能方法是否在两种复杂程度不同的人工智能模型和两种人们认为自己具有不同领域专业知识水平的决策环境中满足这些属性。我们的结果表明,许多人工智能解释在用于人们缺乏领域专业知识的决策任务时,都不满足任何理想属性。在人们知识更丰富的决策任务上,即使人工智能模型本身就很复杂,特征贡献解释也能满足人工智能解释的更多要求。最后,我们讨论了我们的研究对改进 XAI 方法的设计以更好地支持人类决策以及推进更严格的 XAI 方法实证评估的意义。
互联网用户每天都会在网上做出许多决策。随着近年来人工智能的快速发展,人工智能辅助决策(由人工智能模型提供决策建议和信心,而人类做出最终决策)已成为人机协作的新范式。在本文中,我们旨在定量了解人类决策者是否以及何时会采纳人工智能模型的建议。我们通过将人类决策者在每个决策任务中的认知过程分解为两个部分来定义人类行为模型空间:效用部分(即评估不同动作的效用)和选择部分(即选择要采取的动作),然后我们在模型空间中执行系统搜索以确定最适合现实世界人类行为数据的模型。我们的研究结果强调,在人工智能辅助决策中,人类决策者的效用评估和行动选择受到他们自己对决策任务的判断和信心的影响。此外,人类决策者表现出在效用评估中扭曲决策信心的倾向。最后,我们还分析了随着决策的利害关系不同,人类对人工智能建议的采纳行为的差异。
输入值,以便将模型预测更改为期望输出,这在可解释人工智能 (XAI) 中越来越多地用于促进人类与人工智能模型的交互 (Miller 2019)。我们通过扩展先前的反事实模型 (Russell 2019) 来形式化置信度的反事实解释。表 1 解释了 Russell (2019) 的模型与我们提出的方法之间的区别。然后,我以两种不同的呈现形式生成这些解释:(1) 基于示例的反事实和 (2) 基于可视化的反事实。为了评估解释,我们进行了用户研究,因为人们越来越接受可解释性技术应该建立在哲学、心理学和认知科学的研究之上 (Miller 2019),并且解释的评估过程应该涉及用户研究。我们为两个不同的领域招募了总共 180 名参与者。为了评估理解,我们使用任务预测(Hoffman 等人,2018 年,第 11 页)。参与者会得到一些实例,他们的任务是决定 AI 模型会为哪个实例预测更高的置信度分数。因此,任务预测有助于评估用户对他们对模型置信度的理解的心理模型。为了评估信任,我们使用了(Hoffman 等人,2018 年,第 49 页)的 10 点李克特信任量表。对于满意度,我们使用了(Hoffman 等人,2018 年,第 39 页)的 10 点李克特解释满意度量表。结果表明,与没有解释的基线相比,这两种形式的反事实解释都增加了信任和理解。值得注意的是,基于可视化和基于示例在提高理解、信任和满意度方面几乎没有差异。使用定性分析,我们观察到这两种方法的一些局限性:•人们使用基于案例的推理来理解基于示例的解释。也就是说,他们在基于示例的演示中找到最接近的例子,而忽略了置信度得分和特征值之间的线性相关性。这个结果表明,我们在使用基于示例的解释来解释连续变量时应该小心谨慎。•虽然使用基于可视化的解释更容易解释相关性,但是当并非所有反事实点都显示在解释中时,人们不愿意推断出最低值和最高值之外的相关性。因此,应该在解释中显示所有反事实点以缓解这个问题。
随着人工智能辅助决策的普及,一个比经典问题“三个臭皮匠顶个诸葛亮”更有意义的问题是,在人工智能辅助决策中,群体的行为和表现与个人相比如何。在本文中,我们进行了一个案例研究,从决策准确性和信心、依赖人工智能的适当性、对人工智能的理解、决策公平性和承担责任的意愿六个方面比较了群体和个人在人机协作再犯风险评估中的表现。我们的研究结果表明,与个人相比,群体更多地依赖人工智能模型,而不管其正确性如何,但当他们推翻错误的人工智能建议时,他们会更有信心。我们还发现,根据准确性平等标准,群体比个人做出的决策更公平,并且当人工智能做出正确的决策时,群体愿意给予人工智能更多的信任。最后,我们讨论了我们工作的影响。
CHATGPT作为医学中AI辅助决策支持工具的表现:一项概念证明研究,用于解释常见心脏病症状和管理(Amstelheart-2)的概念证明研究(Amstelheart-2)作者:Ralf E. Harskamp,MD,PhD1,2*; Lukas de Clercq,MSC 1,2*1。阿姆斯特丹UMC位置阿姆斯特丹大学,荷兰阿姆斯特丹总执业系; 2。阿姆斯特丹公共卫生,个性化医学,阿姆斯特丹,荷兰 * *两位作者都为与通讯作者的通信相同贡献:地址:地址:地址:地址:locatie amc amc afdeling huisartsgeneeskunde电话:+31 20 5667683电子邮件:r.e.harskamp@amsterdamumc.nl支持披露:作者进行了独立调查;调查的AI-Tool(CHATGPT)的开发人员不参与此工作的设计,进行或报告。资金声明:这项研究没有获得任何资金。利益冲突:无道德审查:这项研究是阿姆斯特丹心脏研究的一部分,并免于2023年2月(W23_07#23.097)的阿姆斯特丹UMC的全面审查医学伦理审查委员会单词计数主要文本:2527
在人工智能辅助决策中,人类决策者知道何时信任人工智能以及何时信任自己至关重要。然而,先前的研究仅基于表明人工智能正确性可能性 (CL) 的人工智能置信度来校准人类信任,而忽略了人类的 CL,从而阻碍了最佳团队决策。为了弥合这一差距,我们提出在任务实例级别基于双方的 CL 来促进人类适当的信任。我们首先通过近似人类的决策模型并计算他们在类似情况下的潜在表现来建模人类的 CL。我们通过两项初步研究证明了我们模型的可行性和有效性。然后,我们提出了三种 CL 利用策略来在人工智能辅助决策过程中显式/隐式地校准用户的信任。一项受试者间实验 (N=293) 的结果表明,与仅使用人工智能置信度相比,我们的 CL 利用策略可以促进人类对人工智能更合适的信任。我们进一步为更人性化的人工智能辅助决策提供了实际意义。
人工智能和机器学习的进步导致人工智能在各个领域中用于增强或支持人类决策的采用急剧增加。越来越多的研究致力于解决模型可解释性和解释的好处,以帮助最终用户或其他利益相关者解读所谓“黑匣子人工智能系统”的内部工作原理。然而,目前人们对传达解释的方式(例如,文本、可视化或音频)在通知、增强和塑造人类决策方面的作用了解甚少。在我们的工作中,我们通过可信度评估系统的视角来解决这一研究空白。考虑到通过各种渠道获得的大量信息,人们在做出决策时会不断考虑他们所消费信息的可信度。然而,随着信息过载的增加,评估我们所遇到的信息的可信度并非易事。为了帮助用户完成这项任务,自动可信度评估系统已被设计为各种情况下的决策支持系统(例如,,评估新闻或社交媒体帖子的可信度)。但是,为了使这些系统有效地支持用户,它们需要得到信任和理解。事实证明,解释在告知用户对决策支持系统的依赖方面发挥着至关重要的作用。在本文中,我们研究了解释方式对人工智能辅助可信度评估任务的影响。我们使用一项涵盖六种不同解释模式的受试者间实验(N = 375),以评估解释模式对 AI 辅助决策结果准确性、用户对系统信任度以及系统可用性的影响。我们的结果表明,解释在塑造用户对决策支持系统的依赖方面发挥着重要作用,从而影响决策的准确性。我们发现,在有解释的情况下,用户在评估陈述的可信度时表现更准确。我们还发现,在没有解释的情况下,用户很难就陈述的可信度达成一致。如果有解释,文本和音频解释比图形解释更有效。此外,我们发现
多项研究旨在弥合人工智能 (AI) 与人类决策者在人工智能辅助决策中的差距,其中人类是人工智能模型预测的消费者,也是高风险应用中的最终决策者。然而,人们的感知和理解常常被他们的认知偏见所扭曲,例如确认偏见、锚定偏见、可用性偏见等等。在这项工作中,我们使用认知科学领域的知识来解释人机协作决策环境中的认知偏见,并减轻它们对协作绩效的负面影响。为此,我们用数学方法模拟认知偏见,并提供一个通用框架,研究人员和从业者可以通过该框架了解认知偏见与人机准确性之间的相互作用。然后,我们特别关注锚定偏见,这是人机协作中常见的偏见。我们实施了基于时间的脱锚策略,并进行了我们的第一次用户实验,以验证其在人机协作决策中的有效性。基于此结果,我们设计了一种资源受限环境下的时间分配策略,该策略在某些假设下可实现最佳人机协作。然后,我们进行了第二次用户实验,结果表明,当 AI 模型的置信度较低且不正确时,我们的带解释的时间分配策略可以有效地解除人类的束缚并提高协作绩效。
摘要 技术和处理能力的进步推动了包括人工智能 (AI) 代理在内的复杂技术的出现。AI 代理以多种形式渗透到社会,包括对话代理或聊天机器人。由于这些聊天机器人具有社交组件,因此评估其设计的社会方面及其对用户结果的影响至关重要。本研究采用社会决定理论来研究三种动机需求对决策聊天机器人的用户交互结果变量的影响。具体而言,本研究着眼于相关性、能力和自主性对用户满意度、参与度、决策效率和决策准确性的影响。一项精心设计的实验表明,这三种需求对于用户满意度和参与度都很重要,而能力和自主性与决策准确性相关。这些发现强调了在 AI 设计过程中考虑心理结构的重要性。我们的研究结果还为计划使用人工智能辅助聊天机器人来改善决策制定的人工智能设计师和组织提供了有益的启示。