BTH关键词检索结果

提示后的偏见:大型语言模型中的持续歧视

Bias after Prompting: Persistent Discrimination in Large Language Models

从偏见转移假设 (BTH) 的先前工作中可以得出的一个危险假设是,偏见不会从预先训练的大型语言模型 (LLM) 转移到适应模型。我们通过研究提示适应下因果模型中的 BTH 来验证这一假设,因为提示是现实世界应用中非常流行且易于使用的适应策略。与之前的工作相比,我们发现偏见可以通过提示转移,而流行的基于提示的缓解方法并不能始终阻止偏见的转移。具体来说,相关性......