详细内容或原文请订阅后点击阅览
提示后的偏见:大型语言模型中的持续歧视
从偏见转移假设 (BTH) 的先前工作中可以得出的一个危险假设是,偏见不会从预先训练的大型语言模型 (LLM) 转移到适应模型。我们通过研究提示适应下因果模型中的 BTH 来验证这一假设,因为提示是现实世界应用中非常流行且易于使用的适应策略。与之前的工作相比,我们发现偏见可以通过提示转移,而流行的基于提示的缓解方法并不能始终阻止偏见的转移。具体来说,相关性......
来源:Apple机器学习研究从偏见转移假设 (BTH) 的先前工作中可以得出的一个危险假设是,偏见不会从预先训练的大型语言模型 (LLM) 转移到适应模型。我们通过研究提示适应下因果模型中的 BTH 来验证这一假设,因为提示是现实世界应用中非常流行且易于使用的适应策略。与之前的工作相比,我们发现偏见可以通过提示转移,而流行的基于提示的缓解方法并不能始终阻止偏见的转移。具体来说,内在偏见与迅速适应后的偏见之间的相关性在人口统计和任务中仍然保持中等到强——例如,共指解析中的性别(rho >= 0.94),以及问题回答中的年龄(rho >= 0.98)和宗教(rho >= 0.69)。此外,我们发现,当改变少数镜头组成参数(例如样本大小、刻板内容、职业分布和代表性平衡(rho >= 0.90))时,偏差仍然具有很强的相关性。我们评估了几种基于提示的去偏差策略,发现不同的方法具有不同的优势,但没有一种方法能够持续减少跨模型、任务或人口统计的偏差转移。这些结果表明,纠正内在模型中的偏差并可能提高推理能力可以防止偏差传播到下游任务。
- * 同等贡献† 在 Apple 期间完成的工作
