证据点:亚裔美国学生在一项 AI 论文评分研究中丢分更多——但研究人员不知道原因

当 ChatGPT 于 2022 年 11 月向公众发布时,倡导者和监督者警告了种族偏见的可能性。新的大型语言模型是通过从书籍、文章和在线写作中收集 3000 亿个单词创建的,其中包括种族主义谎言并反映了作者的隐性偏见。有偏见的训练数据可能会产生偏见 […]The post PROOF POINTS:亚裔美国学生在 AI 论文评分研究中失分更多——但研究人员不知道原因首先出现在 The Hechinger Report 上。

来源:The Hechinger Report

2022 年 11 月 ChatGPT 向公众发布时,倡导者和监督者警告了种族偏见的可能性。新的大型语言模型是通过从书籍、文章和在线写作中收集 3000 亿个单词创建的,其中包括种族主义谎言并反映了作者的隐性偏见。有偏见的训练数据可能会产生有偏见的建议、答案和文章。垃圾进,垃圾出。

3000 亿个单词

研究人员开始记录人工智能偏见如何以意想不到的方式表现出来。在管理 SAT 的大型测试机构 ETS 的研发部门内部,两名研究人员让人类与机器对抗,评估了 8 至 12 年级学生撰写的 13,000 多篇论文。他们发现,为 ChatGPT 提供支持的人工智能模型在评分论文时对亚裔美国学生的惩罚比其他种族和民族更重。这纯粹是一项研究练习,这些论文和机器评分并未用于 ETS 的任何评估。但该组织与我分享了其分析结果,以警告学校和教师在课堂上使用 ChatGPT 或其他 AI 应用程序时可能存在种族偏见。

AI 和人类根据种族和民族对论文的评分不同

AI 和人类根据种族和民族对论文的评分不同
“Diff” 是本实验中人类给出的平均分数与 GPT-4o 之间的差异。 “Adj. Diff” 根据人类评分的随机性调整了这个原始数字。来源:Matt Johnson 和 Mo Zhang 的表格“使用 GPT-4o 为 Persuade 2.0 独立项目评分”ETS(2024 年 6 月草案)
“Diff” 是本实验中人类给出的平均分数与 GPT-4o 之间的差异。 “Adj. Diff” 会根据人工评分的随机性调整这个原始数字。来源:Matt Johnson 和 Mo Zhang 的表格“使用 GPT-4o 为 Persuade 2.0 独立项目评分”ETS(2024 年 6 月草案)
GPT-4o 大量论文 AI 论文评分经常过高,也经常过低 2012 年发表的研究