在人工智能聊天机器人的“狂野西部”,与种族和种姓有关的微妙偏见往往得不到控制

华盛顿大学的研究人员开发了一种检测人工智能模型中细微偏见的系统。他们发现,在围绕种族和种姓的对话中测试的八个流行人工智能模型中有七个在互动中产生了大量有偏见的文本——尤其是在讨论种姓时。开源模型的表现远不如两个专有的 ChatGPT 模型。

来源:华盛顿大学

新闻稿  |  研究  |  技术

新闻稿 研究 技术

2024 年 11 月 20 日

在 AI 聊天机器人的“狂野西部”中,与种族和种姓相关的细微偏见往往不受控制

华盛顿大学的研究人员开发了一种检测 AI 模型中细微偏见的系统。他们发现,在围绕种族和种姓的对话中测试的八种流行 AI 模型中有七种在互动中产生了大量有偏见的文本——尤其是在讨论种姓时。iStock

iStock iStock

最近,LinkedIn 宣布推出其招聘助理,这是一种人工智能“代理”,可执行招聘人员工作中最重复的部分——包括在面试前后与求职者互动。 LinkedIn 的机器人是越来越多部署大型语言模型与求职者互动的工具中最为引人注目的例子,例如 Tombo.ai 和 Moonhub.ai。

LinkedIn 宣布推出招聘助理 人工智能“代理” Tombo.ai Moonhub.ai

鉴于招聘是重要的——与推荐袜子的系统相比——华盛顿大学的研究人员试图探索偏见在此类系统中的表现方式。虽然许多著名的大型语言模型或 LLM(例如 ChatGPT)都具有内置防护装置来捕捉明显的偏见(例如诽谤),但系统性偏见仍然可能在聊天机器人交互中巧妙出现。此外,由于许多系统都是在西方国家创建的,因此它们的防护装置并不总是能识别非西方的社会概念,例如南亚的种姓。

研究人员寻求社会科学方法来检测偏见,并开发了一个七度量系统,他们用这个系统在模拟工作筛选中测试了八个不同的法学硕士在种族和种姓方面的偏见。他们发现八个模型中有七个在互动中产生了大量有偏见的文本——尤其是在讨论种姓时。开源模型的表现远不如两个专有的 ChatGPT 模型。

介绍了研究结果 Tanu Mitra Llama Preetam Dammu 提示攻击 Hayoung Jung