作者注释Paul D. Windschitl(https://orcid.org/0000-0000-0002-4058-3779) Shanon Rule,Ashley Jennings,Andrew R. Smith(https://orcid.org/0000-0000-0001-5302-3343)。这项工作得到了国家科学基金会的保罗·温斯基特(Paul Windschitl)和安德鲁·史密斯(Andrew Smith)的支持。有关本文的信件应介绍给爱荷华州爱荷华大学心理与脑科学系,爱荷华州,爱荷华州52242。e-邮件:paul-windschitl@uiowa.edu;电话:319-335-2435
这就是 XAI 发挥作用的地方。XAI 是一个新兴领域,它提供克服算法和 ML 模型偏见并生成标准人类解释的技术。XAI 突出的主要原因是建立信任并在早期阶段检测偏见以消除它们。人工智能的可解释性是为了确保人工智能模型的适应性和可解释性,这些模型进一步融入了上下文推理。对 XAI 进行分类的方法有很多种,从方法对不同模型的适用性到解释的范围。一种较新的方法是在已部署的 ML 模型中添加一层可解释性。这称为事后方法,其中首先进行预测,然后添加一层可解释性以进行推理。但是,如果出现问题,就会出现问责问题。在这种情况下,就会出现谁应该负责的问题:构建机器学习模型的团队,还是构建可解释性模型的团队。这是
“ +””。 <=> 4- 57 $。 13 <1:> 4- 6 8。 1 <1 = 1> 1@ 2a 21 4-, / 9。。0 12 2 1> 22 4- / / /。 4-,9。
I.背景:物理特征作为生物识别技术 虽然人类拥有许多共同的物理特征,但他们在外表上并不是彼此的复制品。尽管人类各有不同,但共同的特征意味着可以进行比较。通过面部识别某人的能力一直是人类将彼此作为不同个体联系起来的最基本方式之一 [1]。识别某人实际上是人类视觉信息处理的一种形式 [2]。早在古代世界出现镜子之前(大约公元前 5 世纪,希腊人使用手镜梳妆 [3]),对一个人面部的描述总是由另一个人的目光决定,或者充其量是自己对自己在阳光照射的清水中倒影的描述。有些人甚至通过识别额头、鼻子、眼睛、眉毛、耳朵和脸颊上的独特特征,或通过一些明显的标记,如雀斑或胎记,获得昵称。这些都是记住个人的常用方式;不是为了歧视,而只是为了识别。在不超过 250 户的村庄,有可能了解并记住每个人 [4],特别是考虑到亲属具有相似和家庭特征。今天,我们将这些独特的身体特征称为生物识别 [5]。自 20 世纪初以来,我们一直使用指纹等生物识别技术来表示唯一性(例如,苏格兰场于 1900 年 6 月推出了 Galton-Henry 指纹分类系统 [6])。到 20 世纪 80 年代中期,美国执法部门已经实现了指纹自动匹配,到 20 世纪 90 年代,已有 500 个自动指纹识别系统 (AFIS) 用于定罪 [7]。AFIS 的实施标志着自动化首次用于交叉检查细节。目前,全球范围内已经使用高分辨率相机收集了数百万个细节信息,而不再使用传统的基于墨水的方法(例如,在印度,世界上最大的生物识别系统 Aadhaar 已系统地收集了超过 10 亿个指纹)。仅国际刑警组织的 AFIS 就拥有来自 17,000 多个犯罪现场标记的 220,000 个指纹记录,每天进行 3,000 次比对 [8]。同样,直到最近二十年,自动面部识别才成为可能并广泛用于各种应用,例如解锁手机、定位失踪人员、减少零售犯罪,甚至跟踪学生和工人出勤情况等 [9]。
最近的研究表明,从人类反馈(RLHF)中学习的教学调整(IT)和加强学习会显着提高大语言模型(LMS)的能力。尽管这些调整方法可以帮助将模范与人类目标保持一致并产生高质量的文本,但对它们的潜在不利影响知之甚少。在这项工作中,我们对IT和RLHF的影响进行了对LMS的做法和推理的影响,重点是三种认知偏见(诱饵效应,确定性效应和信仰偏见),这些偏见都众所周知,这些偏见都会影响人类的决策 - 做出和推理。我们的发现突出了这些偏见在GPT-3,Mistral和T5家族中的各种偏见中的存在。值得注意的是,我们发现在经过指导调节的模型中,Bi-ASE的存在更强,例如Flan-T5,Mistral-Instruct,GPT3.5和GPT4。我们的工作构成了理解教学调整LMS认知偏见的一步,这对于开发更可靠和不可用的语言模型至关重要。1
摘要 文化和背景可能导致评估不准确,包括传统测试和替代性评估。标准化测试旨在测量智力和一般知识,但它们是基于多数群体的知识和价值观而制定的,这可能会对少数群体产生偏见,包括性别、种族、社区地位以及具有不同语言背景、社会经济地位和文化的人。虽然替代性评估被认为在文化上更加公平,但它们仍然不是完全公平的。创造力与智力同样重要,创造力评估措施是基于个体文化而制定的。为了减少偏见,我们建议在传统测试和替代性评估中增加创造力评估。 关键词:评估,文化偏见,创造力,标准化测试,文化效度
随着人工智能系统使用范围的不断扩大,围绕人工智能公平性和偏见的讨论也愈演愈烈,因为潜在的偏见和歧视也变得越来越明显。本调查研究了人工智能公平性和偏见的来源、影响和缓解策略。多项研究发现人工智能系统存在针对某些群体的偏见,例如 Buolamwini 和 Gebru (2018) 研究的面部识别系统,以及 Dastin (2018) 和 Kohli (2020) 研究的招聘算法。这些偏见可能会加剧系统性歧视和不平等,在招聘、贷款和刑事司法等领域对个人和社区产生不利影响(O'Neil,2016 年;Eubanks,2018 年;Barocas 和 Selbst,2016 年;Kleinberg 等人,2018 年)。研究人员和从业人员提出了各种缓解策略,例如提高数据质量(Gebru 等人,2021 年)和设计明确公平的算法(Berk 等人,2018 年;Friedler 等人,2019 年;Yan 等人,2020 年)。本文全面概述了人工智能偏见的来源和影响,研究了数据、算法和用户偏见及其伦理影响。它调查了当前关于缓解策略的研究,讨论了它们的挑战、局限性以及跨学科合作的重要性。研究人员、政策制定者和学术界广泛认识到人工智能公平性和偏见的重要性(Kleinberg 等人,2017 年;Caliskan 等人,2017 年;Buolamwini 和 Gebru,2018 年;欧盟委员会,2019 年;Schwartz 等人,2022 年;Ferrara,2023 年)。这篇综述论文深入探讨了人工智能中公平性和偏见的复杂和多方面问题,涵盖了偏见的来源、影响和拟议的缓解策略。总体而言,本文旨在通过阐明人工智能中公平性和偏见的来源、影响和缓解策略,为开发更负责任和更道德的人工智能系统做出持续努力。二、人工智能中的偏见来源