详细内容或原文请订阅后点击阅览
转向新的嵌入空间:分析由多语言语言模型中模型干预引起的跨语性对齐
跨语言对齐表示形式是多语言大语言模型(MLLMS)中所需的属性,因为对齐可以提高跨语性任务的性能。通常,对齐需要微调模型,该模型在计算上昂贵且相当大的语言数据,通常可能无法使用。微调替代品是模型干预措施 - 一种操纵模型激活以将生成转向所需方向的方法。我们分析了流行干预措施(寻找专家)对…
来源:Apple机器学习研究跨语言对齐表示形式是多语言大语言模型(MLLMS)中所需的属性,因为对齐可以提高跨语性任务的性能。通常,对齐需要微调模型,该模型在计算上昂贵且相当大的语言数据,通常可能无法使用。微调替代品是模型干预措施 - 一种操纵模型激活以将生成转向所需方向的方法。我们分析了流行干预措施(寻找专家)对MLLM中跨语性表示的一致性的影响。我们确定操纵给定语言的神经元,并具有内省的嵌入MLLM前和操作后的嵌入空间。我们表明,修改MLLM的激活会改变其嵌入空间,从而增强了跨语性对准。此外,我们表明,嵌入空间的变化转化为检索任务上的下游性能的改善,跨语性检索的TOP-1准确性提高了2倍。
- †在Apple上完成的工作‡等等贡献§AI虚拟助理实验室,佐治亚理工学院