摘要 在之前的工作中,我们试图描述“值得信赖的人工智能”(Varshney 2022,Knowles 等人。2022)。在这项工作中,我们研究了似乎对我们的(人类)可信度做出判断的人工智能系统的案例,并探究了在何种条件下我们可以信任人工智能系统适当地信任我们。我们认为,无法接受他人的观点(以下称为“同理心缺陷”)既可以解释也可以证明我们对人工智能的不信任,因为人工智能的任务是预测人类(不)可信度的可能性。例子包括使用人工智能来预测假释和保释资格、学术诚信和信誉。人类希望确保对我们的可信度的判断基于对我们的理由和独特情况的某种程度的同理心理解。人工智能无法采纳我们的主观观点,这使我们对人工智能系统对人类可信度的评估的信任产生怀疑。
摘要 由于人工智能(AI)研究及其部署和应用的广泛进展,近年来有关人工智能系统的公开辩论也获得了动力。随着《可信赖人工智能伦理指南》(2019)的发布,信任和可信度的概念在人工智能伦理辩论中引起了特别的关注;尽管人们普遍认为人工智能应该值得信赖,但信任和可信度在人工智能领域的含义并不明确。在本文中,我详细概述了迄今为止《人工智能伦理指南》中使用的信任概念。在此基础上,我从实践哲学的角度评估了它们的重叠和遗漏。我认为,目前,人工智能伦理倾向于过载可信度的概念。因此,它有可能成为一个流行词,无法转化为人工智能研究的工作概念。然而,我们需要的是一种方法,这种方法也借鉴了其他领域对信任的研究成果,例如社会科学和人文学科,尤其是实践哲学领域。本文旨在朝这个方向迈出一步。
用于 HFACS 评分者间信度评估的属性一致性分析方法 T. Steven Cotter 老道明大学 tcotter@odu.edu Veysel Yesilbas,博士。 Vyesi001@odu.edu ____________________________________________________________________________________________ 摘要 评分者间信度可以看作是评分者对给定项目或情况的一致程度。已经采取了多种方法来估计和提高受过培训的事故调查员使用的美国国防部人为因素分析和分类系统的评分者间信度。在本研究中,三名经过培训的教练飞行员使用 DoD-HFACS 对 2000 年至 2013 年期间的 347 份美国空军事故调查委员会 (AIB) A 级报告进行分类。总体方法包括四个步骤:(1) 训练 HFACS 定义,(2) 验证评级可靠性,(3) 评级 HFACS 报告,以及 (4) 随机抽样以验证评级可靠性。属性一致性分析被用作评估评级者间信度的方法。在最后的训练验证轮中,评估者内部一致性范围为 85.28% 至 93.25%,每个评估者与标准的一致性范围为 77.91% 至 82.82%,评估者之间一致性范围为 72.39%,所有评估者与标准的一致性为 67.48%。HFACS 评分摘要随机样本的相应一致性在评估员内部为 78.89% 到 92.78%,在评估员之间为 53.33%,这与之前的研究一致。这项初步研究表明,训练-验证-评级-确认属性一致性分析方法有可能帮助提高 HFACS 评级的可靠性,并有助于准确捕捉人为因素对飞机事故的影响。需要进行额外的全面研究来验证和充分开发所提出的方法。关键词 事故调查、HFACS、内部评估者可靠性 介绍 原因 (1990) 事故因果模型,也称为瑞士奶酪模型,是一种理论模型,旨在解释事故如何在组织层面上表现出来。该模型的主要假设是事故发生的方式使得原因在组织层面上存在关系。第二个假设是,至少组织层面需要共同努力来防止事故发生。根据这些假设,Reason 理论认为,大多数事故都可以追溯到先前组织层面的潜在人为失误导致的主动和潜在人为失误。.人为因素分析和分类系统 (HFACS) 最初由 Wiegmann 和 Shappell (2003) 根据 Reason 模型改编而成,适用于航空领域,该系统确定了组织内可能发生人为错误的四个层级:组织影响、不安全监督、不安全行为的前提条件和不安全行为。自 2005 年以来,美国国防部 (DoD) 一直使用 HFACS (DOD, 2005) 作为 DOD HFACS,但在不安全行为前提条件和不安全行为层面上进行了一些更改。DOD HFACS (2005) 由 4 个主要层级、14 个子类别(在 Wiegmann 和 Shappell 的研究中称为类别)和 147 个纳代码组成,用于对导致飞机事故的组织人为错误进行详细分类。
Vyesi001@odu.edu ____________________________________________________________________________________________ 摘要 评分者间信度可以看作是评分者对给定项目或情况的一致程度。已采取多种方法来估计和提高受过训练的事故调查员使用的美国国防部人为因素分析和分类系统的评分者间信度。在本研究中,三名受过训练的教练飞行员使用 DoD-HFACS 对 2000 年至 2013 年之间的 347 份美国空军事故调查委员会 (AIB) A 级报告进行分类。总体方法包括四个步骤:(1) 根据 HFACS 定义进行训练,(2) 验证评级可靠性,(3) 评估 HFACS 报告,以及 (4) 随机抽样以验证评级可靠性。属性一致性分析被用作评估评分者间信度的方法。在最后的训练验证轮中,评估员内部一致性范围为 85.28% 至 93.25%,每个评估员与标准的一致性范围为 77.91% 至 82.82%,评估员之间的一致性为 72.39%,所有评估员与标准的一致性为 67.48%。HFACS 评级摘要随机样本的相应一致性为评估员内部 78.89% 至 92.78%,评估员之间的一致性为 53.33%,这与之前的研究一致。这项试点研究表明,训练-验证-评级-确认属性一致性分析方法有可能有助于提高 HFACS 评级的可靠性,并有助于准确捕捉人为因素对飞机事故的影响。需要进行额外的全面研究来验证和充分开发所提出的方法。关键词 事故调查,HFACS,内部评估者信度 简介 Reason (1990) 事故因果模型,也称为瑞士奶酪模型,是一种理论模型,旨在解释事故如何在组织层面上表现出来。该模型的主要假设是,事故发生的方式使得原因在组织层面上具有关系。第二个假设是,至少组织层面需要共同努力以防止事故发生。根据这些假设,Reason 理论认为,大多数事故都可以追溯到先前组织层面的潜在人为失误导致的主动和潜在人为失误。自 2005 年以来,美国国防部 (DoD) 一直使用 HFACS (DOD, 2005) 作为 DOD HFACS,特别是在不安全行为前提条件和不安全行为层面进行了一些更改。.人为因素分析和分类系统 (HFACS) 最初由 Wiegmann 和 Shappell (2003) 根据 Reason 模型改编而成,适用于航空领域,该系统确定了组织内可能发生人为错误的四个层级:组织影响、不安全监督、不安全行为的先决条件和不安全行为。DOD HFACS (2005) 由 4 个主要层级、14 个子类别(在 Wiegmann 和 Shappell 的研究中称为类别)和 147 个纳代码组成,用于对导致飞机事故的组织人为错误进行详细分类。
图3 市售 AI 软件的显着相关性评估。通过扰动原始胸部 X 光片(上行),通过攻击代理模型生成对抗性图像(下行)。然后将对抗性图像输入到市售医疗 AI 模型中。请注意,从原始图像到对抗性图像对不同发现的预测概率变化很大,而
技术进步使 AI 讲师(更宽泛地说是机器教师)成为了现实。然而,关于学生如何看待提供教育内容的 AI 讲师,我们可用的信息有限。因此,本研究通过一项在线实验,采用 2(声音:机器般的 vs. 人类般的)x 2(专业知识:新手 vs. 专家)被试间设计,检验 AI 讲师的声音和专业知识对 AI 讲师感知可信度的影响。研究结果表明,与机器般的声音相比,学生认为具有人性化声音的 AI 讲师的可信度更高。研究还发现,社交存在感在 AI 讲师的声音与 AI 讲师感知可信度之间的关系中起着中介作用。最后,AI 讲师感知可信度会对学生未来报名参加基于 AI 讲师的在线课程的意愿产生积极影响。这些发现强调了培养被认为可信的 AI 讲师的重要性。
摘要 车载入侵检测系统 (IV-IDS) 是用于检测针对电动或自动驾驶汽车的网络攻击的保护机制之一,其中基于异常的 IDS 解决方案在检测攻击尤其是零日攻击方面具有更好的潜力。通常,由于难以区分正常数据和攻击数据,IV-IDS 会产生误报(错误地将正常数据检测为攻击)。它可能导致不良情况,例如系统松懈加剧,或在生成警报后事件处理中的不确定性。借助复杂的人工智能 (AI) 模型,IDS 提高了检测到攻击的机会。然而,使用这种模型是以降低可解释性为代价的,可解释性这一特性在确定其他各种有价值的需求时被认为很重要,例如模型的信任、因果关系和稳健性。由于基于人工智能的复杂 IV-IDS 缺乏可解释性,人类很难信任这样的系统,更不用说知道当 IDS 标记攻击时应该采取什么行动。通过使用可解释人工智能 (XAI) 领域的工具,本论文旨在探索可以根据模型预测产生什么样的解释,以进一步提高基于人工智能的 IV-IDS 的可信度。通过比较调查,在自定义、伪全局、基于可视化的解释(“VisExp”)和基于规则的解释上评估了与可信度和可解释性相关的方面。结果表明,VisExp 提高了可信度,并增强了基于人工智能的 IV-IDS 的可解释性。关键词:入侵检测系统、车载入侵检测系统、机器学习、深度学习、可解释人工智能、可信度。
了解人类如何评估可信度是假新闻时代的一个重要科学问题。来源可信度是可信度评估中最重要的方面之一。了解来源可信度的最直接方法之一是测量进行可信度评估的人的大脑活动。本文报告了一项实验的结果,在该实验中,我们使用脑电图测量了可信度评估过程中的大脑活动。在实验中,参与者必须根据准备阶段学习虚构学生的来源可信度,在此期间,他们在完全了解信息可信度的情况下评估信息可信度。该实验可以识别参与者在做出正面或负面的来源可信度评估时活跃的大脑区域。基于实验数据,我们使用 F1 得分超过 0.7 的脑电图大脑活动测量值(使用 10 倍交叉验证)对人类来源可信度评估进行建模和预测。我们还能够对具有完美知识的信息可信度评估进行建模和预测,并比较从单个实验中获得的两个模型。
表 T1 – 数据集文档 10 表 T2 – 关于人工智能系统运行的文档 11 表 T3 – 可理解性 12 表 T4 – 可访问性(相关机构之外) 14 表 A1 – 生命周期中确保问责的过程 17 表 A2 – 企业/机构责任(回顾性) 20 表 A3 – 负责任的人为监督 20 表 P1 – 数据处理流程 25 表 P2 – 个人数据保护(人工智能相关) 25 表 P3 – 用户和受影响人员的同意流程、信息和影响 27 表 F1 – 确保开发过程中的公平性 31 表 F2 – 工作和供应链条件 37 表 F3 – 生态可持续发展 38 表 R1 – 设计的稳健性和可靠性 42 表 R2 – 运行中的稳健性和可靠性 47 表 1 – 各级别的对应分数 48
由此类坠机事件引起的第三方责任诉讼。美国国家运输安全委员会 (NTSB) 负责调查绝大多数涉及诉讼的事故和事件。该委员会既会识别和观察速度、角度、天气和设备状况等客观数据,也会识别和观察设计错误、维护错误、通讯错误以及导致飞机失事的各种人为行为等主观证据或意见证据。此类公开、专业且理论上中立的证据对于诉讼当事人、法官和陪审团在解决第三方诉讼时似乎至关重要。然而,由于相关法规以及 NTSB 为限制其参与第三方诉讼而发布的隔离条例,在这种案件中,NTSB 的工作成果很少被采纳为证据。此外,由于证据收集和提供方式的原因,可能被采纳的证据也可能不被采纳。
