4. 汇总偏差:当数据集来自整个人口时,可能会对个人或小群体得出错误的结论。这种偏差最常见的形式是辛普森悖论(Blyth,1972),当只考虑整个人口的汇总数据时,小群体数据中观察到的模式就会消失。最著名的例子来自 1973 年加州大学伯克利分校的录取(Bickel 等人,1975)。根据汇总数据,女性申请者被拒绝的次数似乎明显多于男性。然而,对部门级数据的分析显示,大多数部门男性的拒绝率更高。汇总数据未能揭示这一点,因为女性申请总体录取率低的部门的比例高于申请录取率高的部门的比例。
决策算法在社会中的存在感如今正在迅速增加,同时人们也开始担心其透明度以及这些算法可能成为新的歧视来源。事实上,许多相关的自动化系统已被证明会根据敏感信息做出决策或歧视某些社会群体(例如,某些用于人员识别的生物特征识别系统)。为了研究当前基于异构信息源的多模态算法如何受到数据中的敏感元素和内部偏见的影响,我们提出了一个虚构的自动招聘测试平台:FairCVtest。我们使用一组有意识地以性别和种族偏见进行评分的多模态合成档案来训练自动招聘算法。FairCVtest 展示了此类招聘工具背后的人工智能(AI)从非结构化数据中提取敏感信息并以不良(不公平)的方式将其与数据偏见结合起来的能力。最后,我们列出了最近开发能够从深度学习架构的决策过程中删除敏感信息的技术的列表。我们使用其中一种算法(SensitiveNets)来实验歧视感知学习,以消除我们多模态 AI 框架中的敏感信息。我们的方法和结果展示了如何生成更公平的基于 AI 的工具,特别是更公平的自动招聘系统。
随着新闻机构在公众不信任的问题上挣扎,人工智能(AI)的记者可能会通过激活机器启发式方法来减少对敌对媒体偏见的看法,这是一种普遍的心理捷径 - 观众将机器视为客观,系统性和准确性。本报告详细介绍了两个实验的结果(分别为n = 235和279,美国成年人)复制了作者以前的工作。与先前的工作一致,目前的研究为AI记者的触发机器神秘主义评估而又减少了对敌对媒体偏见的看法的论点提供了更多支持。延长了过去的工作,目前的研究还表明,偏置缓解过程(如果AI,机器神经疗法激活,因此减少了偏差)会受到源/自我意识到的不一致的调节,尽管在两个问题的覆盖范围内不同(堕胎合法化和共同化疫苗的疫苗授权)。
本报告主要基于 TikTok 营销科学全球团队在多项委托的第三方研究中收集的数据,这些研究采用了混合方法,通常包括定量在线调查、在模拟 TikTok 环境中接触刺激和/或高级分析。在本报告中,我们重点关注 2022 年至 2024 年间最具相关性和创新性的研究,并探讨 2024 年最大的趋势力量。
我们研究了深层生成模型对即将到来的计算机视觉模型中潜在社会偏见的影响。互联网目睹了a-a-a-a-aford图像的涌入,因此对可能伴随的固有偏见产生了担忧,这可能导致有害内容的分离。本文探讨了如果将生成的图像用作未来模型的训练数据,是否会发生有害的反馈回路,导致偏差。我们通过逐步将可可和CC3M数据集中的原始图像替换为通过稳定的差异生成的图像来进行模拟。修改后的数据集用于训练OpenCLIP和图像字幕模型,我们根据质量和偏差进行评估。与期望相反,我们的发现表明,在训练期间引入产生的图像并不能统一扩大偏见。相反,观察到跨特定任务的偏置缓解实例。我们进一步阐述了可能影响这些现象的因素,例如图像生成中的伪像(例如,模糊的面孔)或原始数据集中的预先偏见。
* 我们感谢 Fabian Trottner 的深入讨论。我们还感谢 Pol Antr`as、David Autor、Costas Arkolakis、Gideon Bornstein、Laura Castillo-Martinez、Jonathan Dingel、Pierre- Olivier Gourinchas、Gordon Hanson、J. Bradford Jensen、Tom Kemeny、Chris Moser、Michael Peters、Esteban Rossi-Hansberg 和 Steve Redding 的深刻评论。本文表达的任何观点均为作者观点,不代表美国人口普查局的观点。人口普查局的披露审查委员会和披露避免官员已审查此信息产品是否存在未经授权披露机密信息的情况,并已批准了此新闻稿中采用的披露避免做法。本研究由联邦统计研究数据中心根据 FSRDC 项目编号 2193(CBDRB-P2193-R8942、R9405、R9629 和 R10013)进行。Eckert 和 Walsh 感谢普林斯顿大学国际经济系完成本研究的部分工作。本文的当前版本取代了“熟练可扩展服务:经济增长中的新城市偏好”。† 加州大学圣地亚哥分校;fpe@ucsd.edu ‡ 乔治城大学;sharat.ganapati@georgetown.edu § 哥伦比亚大学;caw2226@columbia.edu
收集与人们的生命体征相关的个人数据:心率、血压、身体部位的温度、微动作等,具有一定的能力来获取有关个人健康和心理方面的信息。然而,神经数据具有一些与遗传数据相同的特殊特征和品质:大脑将成为像指纹或基因组一样独特的标识符。神经数据和基因组信息提供了预测或推断其他信息的可能性,并且可以揭示有关您的过去和未来的线索。两者都暴露了独特和个人的方面,这些方面是个人自己无法观察到或了解的。因此,只要它们有可能确定健康状况或诊断、预测疾病倾向,或者预测与伊比利亚美洲数据保护网络数据保护标准(以下简称“标准”)第 2.1.d 节相关的行为和个性特征,它们就被视为敏感个人数据。
Ilias Giannopoulos 联系方式:ilias@roes.coop,+306947167887 出生日期:1998 年 6 月 5 日 国籍:希腊语 语言技能:英语流利、希腊语流利、基础西班牙语 个人资料 Ilias Giannopoulos 注重流程、以人为本,热爱个人发展,在 Erasmus+、国际培训、个人和职业发展等领域拥有丰富的专业知识。作为一个自信且善于表达的沟通者,我的方法围绕让事情“简单而重要”,激励个人全力以赴。致力于培育积极和平的文化,通过培训、指导和辅导来庆祝成就。Ilias 热衷于年轻人的积极参与和基于价值观的学习,他还将自己在欧洲培训战略 (ETS) 方面的专业知识带入个人和组织,以开发学习机会。作为国际青年工作培训师协会的成员,Ilias 守护着青年工作的实践,并支持高质量的培训和非正规教育。要点
本报告很大程度上是基于从几项第三方调查研究中收集的Tiktok Marketic Science全球团队的数据,使用混合方法,通常包括定量在线研究,模拟Tiktok环境中的刺激性暴露和/或高级分析。在本报告中,我们专注于2022年至2024年的研究,这是最相关和创新的,并谈论了2024年作用的最大趋势力量。