人工智能模型相信民权运动之前对非裔美国人的种族主义刻板印象——而且他们“在面对质问时试图隐藏它”

当接触到不同种族方言中常见的术语时,大型语言模型会对特定种族群体的人做出固有的种族主义假设,即使没有明确知道他们的种族。

来源:None

科学家发现,普通的AI模型以方言表达了一种秘密的种族主义形式 - 主要反对非裔美国人英语(AAE)

在8月28日发表在《自然》杂志上的一项新研究中,科学家首次发现证据表明,包括OpenAI的GPT3.5和GPT-4在内的常见大语模型以及Meta的Roberta,表达了隐藏的种族偏见。

自然

复制旨在检查人类中隐藏的种族偏见的先前实验,科学家通过要求他们根据其语音模式来判断“说话者”的12个AI模型 - 科学家根据AAE和参考文本进行了判断。与AAE最强烈相关的最常见的三种形容词是“无知”,“懒惰”和“愚蠢的”,而其他描述符则包括“肮脏”,“粗鲁”和“侵略性”。 AI模型没有被告知演讲者的种族群体。

以前的实验

经过测试的AI模型,尤其是GPT-3.5和GPT-4,甚至通过描述具有积极属性的非裔美国人,例如“辉煌”,当时直接被问及他们对该群体的观点时,也掩盖了这种秘密的种族主义。

尽管AI中有关非洲裔美国人的AI培训数据的更明显的假设并不是种族主义,但更秘密的种族主义表现出大型语言模型(LLMS),并实际上加剧了秘密和公开刻板印象之间的差异,从表面上讲,语言模型在表面上掩盖了较深的种族主义。

这些发现还表明,在LLM中,公开种族主义和秘密种族主义之间存在基本不同,而缓解明显的刻板印象并不能转化为减轻秘密刻板印象。有效地,试图反对明确偏见的训练正在掩盖被烘烤的隐藏偏见。

相关:32次人工智能使它在灾难性上错了

相关: 人工智能的32倍使它在灾难性上误解
将世界上最有趣的发现直接传递到您的收件箱中。