详细内容或原文请订阅后点击阅览
使用Coreference解决方案中的置信度差异来研究大语言模型中的交叉偏见
大型语言模型(LLMS)取得了令人印象深刻的表现,从而使其广泛采用在资源受限的背景下的决策支持工具,例如招聘和入学。但是,科学共识是AI系统可以反映和加剧社会偏见,在批判性社会环境中使用时对基于身份的伤害的担忧引起了人们的关注。先前的工作通过评估不同语言推理任务中的人口差异来评估LLM的偏见奠定了坚实的基础。在这项工作中,我们扩展了单轴公平评估以检查交叉……
来源:Apple机器学习研究大型语言模型(LLMS)取得了令人印象深刻的表现,从而使其广泛采用在资源受限的背景下的决策支持工具,例如招聘和入学。但是,科学共识是AI系统可以反映和加剧社会偏见,在批判性社会环境中使用时对基于身份的伤害的担忧引起了人们的关注。先前的工作通过评估不同语言推理任务中的人口差异来评估LLM的偏见奠定了坚实的基础。在这项工作中,我们扩展了单轴公平性评估以检查交叉偏见,并认识到当多个歧视轴相交时,它们会产生不同的劣势模式。我们通过在10个属性中使用25个人口标记的Winobias数据集来创建一个名为WinoIdentity的新基准,包括年龄,国籍和种族,与二进制性别相交,产生245,700个提示,评估50个不同的偏见模式。我们关注因代表性不足而造成的省略危害,我们通过不确定性的镜头调查偏见,并提出一个称为Coreferne Pusitive Disparity的集体(UN)公平度量指标,该公平度为COREFERCE置信度差异,该公平度量是衡量模型是否比其他人更自信的模型。我们评估了五个最近发布的LLM,并在各种人口统计学属性(包括身体类型,性取向和社会经济状况)中发现置信度差异高达40%,而模型对反疾病型环境中的双重偏离性身份最不确定。令人惊讶的是,即使对于霸权或特权标记,Coreference置信度也会降低,这表明LLM最近的令人印象深刻的表现更有可能是由于记忆而不是逻辑推理所致。值得注意的是,这是价值一致性和有效性的两个独立失败,可能会造成社会伤害。
- **在Apple