详细内容或原文请订阅后点击阅览
人工智能关于人的决策的公平性
来自 LLM 实验的证据
来源:曼哈顿政策研究所信息执行摘要
随着人工智能系统的能力变得越来越强大,它们可能会越来越多地承担直接影响人们的高风险决策,例如贷款审批、医疗评估、简历筛选和其他竞争性选择或分配流程。这引发了关于人工智能系统如何平衡个人和群体之间的公平性的重要道德问题。
该报告评估了基于大型语言模型 (LLM) 的人工智能系统在决策场景中的表现,在这些场景中,它们的任务是在两个人类候选人之间进行选择,每个候选人都与包含决策相关因素的上下文背景相关联,以及对所选候选人有利或不利的结果。
在第一个实验中,提供给 AI 的信息重复描述了性别和决策相关属性都不同的候选人对;性别是通过明确的字段和性别一致的名称来操纵的。为了隔离性别影响,在交换性别标签后重新评估相同的资料。在职位晋升、大学录取或贷款批准等有利结果的情况下,大多数模型选择女性候选人的频率略高于男性候选人。从提供给法学硕士的信息中删除明确的性别字段减少了但没有消除这种差异,可能是因为性别名称继续充当隐含的性别线索。在裁员、项目失败的责任分配或驱逐等不利结果的情况下,模型的选择通常接近性别均等。
在这两个实验中,显着影响 LLM 选择的一个因素是候选人在模型上下文窗口(即提示)中呈现的顺序。在有利结果的情况下,大多数模型倾向于系统地优先选择提示中第一个列出的候选者。这种顺序效应表明模型选择对提示结构非常敏感。
简介
表 1
