Loading...
机构名称:
¥ 1.0

指导遵循语言模型通常表现出不良的偏见。这些不良偏见可能会在语言模型的现实世界中加速,在这种模型的现实世界中,通过零射击的提示,使用了广泛的指示。为了解决这个问题,我们首先定义了偏置神经元,该神经元显着影响偏见的产出,并在经验上证明其存在。此外,我们提出了一种新颖而实用的缓解方法CRISPR,以消除在遵循教学遵循的环境中语言模型的偏置神经元。crispr au-fomations确定有偏见的输出,并使用可解释性方法来影响偏见输出作为偏见神经元的神经元。实验结果证明了我们方法在减轻零射击指令遵循设置下的偏见的有效性,但失去了模型的任务绩效和现有知识。实验结果揭示了我们方法的普遍性,因为它在各种指令和数据集中显示出鲁棒性。令人惊讶的是,我们的方法可以通过仅消除少数神经元(至少三个)来使语言模型的偏见。

通过偏见神经元消除的指导跟随语言模型的偏见

通过偏见神经元消除的指导跟随语言模型的偏见PDF文件第1页

通过偏见神经元消除的指导跟随语言模型的偏见PDF文件第2页

通过偏见神经元消除的指导跟随语言模型的偏见PDF文件第3页

通过偏见神经元消除的指导跟随语言模型的偏见PDF文件第4页

通过偏见神经元消除的指导跟随语言模型的偏见PDF文件第5页

相关文件推荐

2024 年
¥5.0
2025 年
¥23.0