详细内容或原文请订阅后点击阅览
评估预训练和即时适应语言模型之间的性别偏见转移
*平等贡献者大型语言模型 (LLM) 越来越多地被调整以实现任务特异性,以便在现实世界的决策系统中部署。之前的几项研究通过研究微调适应策略对模型公平性的影响,调查了偏见转移假设 (BTH),发现在使用微调进行调整时,预训练的屏蔽语言模型中的公平性对模型公平性的影响有限。在这项工作中,我们将 BTH 的研究扩展到提示适应下的因果模型,因为提示是一种可访问且计算效率高的方式来部署……
来源:Apple机器学习研究*平等贡献者
大型语言模型 (LLM) 越来越多地被调整以实现任务特异性,以便在现实世界的决策系统中部署。之前的几项研究通过研究微调适应策略对模型公平性的影响,调查了偏见转移假设 (BTH),发现在使用微调进行调整时,预训练的屏蔽语言模型中的公平性对模型公平性的影响有限。在这项工作中,我们将 BTH 的研究扩展到提示适应下的因果模型,因为提示是一种可访问且计算效率高的方法,可以在现实世界系统中部署模型。与之前的研究相比,我们确定预训练的 Mistral、Falcon 和 Llama 模型中的内在偏见与使用代词共指消解任务对相同模型进行零次和少量提示时的偏见密切相关(rho >= 0.94)。此外,我们发现,即使 LLM 被明确提示表现出公平或有偏见的行为(rho >= 0.92),并且小样本长度和刻板构图各不相同(rho >= 0.97),偏见转移仍然保持着强烈的相关性。我们的研究结果强调了确保预训练 LLM 公平性的重要性,尤其是当它们后来通过即时适应用于执行下游任务时。