本章讨论了在研究种族偏见与其在话语中的表现之间的关系时的一些理论和方法问题。本讨论的背景是一个研究项目,该项目涉及种族主义在话语和交流中的再现,特别是在日常对话(Van Dijk,1984,1987a)、报刊新闻报道(Van Dijk,1983,1988a)和教科书(Van Dijk,1987b)的背景下。这个研究项目的基本假设是,种族偏见主要是通过白人主导群体成员之间的各种话语交流而获得、分享和合法化的。这一假设意味着,对少数民族话语的系统分析可以为种族主义的两个基本方面提供重要的见解。首先,话语分析可以告诉我们一些关于种族偏见的认知表征的内容和结构,以及它们在说话或写作过程中加工的特性。其次,这样的分析可以让我们准确地理解白人群体成员在交流互动中如何有说服力地向其他内群体成员传达这种种族偏见,以及种族偏见如何在主导群体中传播和共享。
作者注释Paul D. Windschitl(https://orcid.org/0000-0000-0002-4058-3779) Shanon Rule,Ashley Jennings,Andrew R. Smith(https://orcid.org/0000-0000-0001-5302-3343)。这项工作得到了国家科学基金会的保罗·温斯基特(Paul Windschitl)和安德鲁·史密斯(Andrew Smith)的支持。有关本文的信件应介绍给爱荷华州爱荷华大学心理与脑科学系,爱荷华州,爱荷华州52242。e-邮件:paul-windschitl@uiowa.edu;电话:319-335-2435
指导遵循语言模型通常表现出不良的偏见。这些不良偏见可能会在语言模型的现实世界中加速,在这种模型的现实世界中,通过零射击的提示,使用了广泛的指示。为了解决这个问题,我们首先定义了偏置神经元,该神经元显着影响偏见的产出,并在经验上证明其存在。此外,我们提出了一种新颖而实用的缓解方法CRISPR,以消除在遵循教学遵循的环境中语言模型的偏置神经元。crispr au-fomations确定有偏见的输出,并使用可解释性方法来影响偏见输出作为偏见神经元的神经元。实验结果证明了我们方法在减轻零射击指令遵循设置下的偏见的有效性,但失去了模型的任务绩效和现有知识。实验结果揭示了我们方法的普遍性,因为它在各种指令和数据集中显示出鲁棒性。令人惊讶的是,我们的方法可以通过仅消除少数神经元(至少三个)来使语言模型的偏见。
独立性和多样性 寻求来自不同利益相关者的反馈,以指导影响评估。由于在此初始阶段确定的风险将指导后续的开发和影响评估过程,因此,通过征求具有不同生活经历、文化背景和主题专业知识的人们的不同观点,全面了解可能出现的潜在危害至关重要。如果内部人员缺乏主题或文化多样性,可能有必要咨询第三方专家或征求可能受到系统不利影响的社区成员的反馈。
基于种族,性别或阶级等特征,因此与公平问题有关。例如,许多状态(例如阿根廷,法国,巴勒斯坦和塞拉利昂)强调了需要解决AWS对数据集的依赖的风险,“可以永久或扩大了无意的社会偏见,包括性别和种族偏见”。14同样,其他状态(例如奥地利,比利时,加拿大,哥斯达黎加,德国,爱尔兰,墨西哥,巴拿马和乌拉圭)强调了越来越多的文献,即“人工智能中性别和种族偏见的例子”,“基于数据的系统重现存在不平等现象”。15在国家政策声明中也表达了对偏见的类似问题。例如,美国国防部强调对AI的“公平”使用,并承诺“采取故意措施最大程度地减少AI能力的意外偏见”。16同样,英国国防部强调,“算法偏见或偏斜的数据集产生的犯罪结果的风险”特别关注AI支持的军事系统。17这些偏见的说法在很大程度上反映了专家文献的一部分,这些文献将偏见视为不平等的治疗问题。
摘要:从社交网络中收集的个人特征的算法评估经常用于对保险费、招聘决策和就业机会、社会保障福利等领域的人员进行评级。这些算法梳理庞大的数据集(例如用户在社交网络上上传的信息),以“学习”某些特征之间的相关性和趋势,并生成“人员排名”,根据社交、声誉、身体、心理甚至行为特征系统地对个人进行评级。由于此类算法同样适用于有残疾和没有残疾的人,因此它们对残疾人尤其有害。换句话说,这些算法将残疾人的排名排在健全人以下(或不太受欢迎),导致依赖此类算法的公共和私营部门组织对残疾人产生歧视。需要采取立法行动为残疾人提供法律保护,使其免受此类算法歧视,无论这种歧视是有意还是无意的。由于此类算法广泛应用于各行各业,立法要求类似情况的残疾人和健全人获得相同的算法排名,可以极大地帮助改善残疾人的生活质量和机会。