大语言模型中的隐藏偏见

MIT科学家在AI语言模型中探索了一个称为位置偏见的关键缺陷,其中模型在文本的开头和末尾都偏向于忽略中间的信息。他们的研究表明,这种偏见不仅源于培训数据,而且还源于模型本身的架构。

来源:Qudata

大语言模型中的隐藏偏见

大型语言模型(LLMS)和克劳德(Claude)和克劳德(Claude)这样的AI彻底改变了AI的处理能力和生成类似人类的文本。但是,在他们强大的能力下,有一个微妙且经常被忽视的问题:位置偏见。这是指这些模型过度强调文档开始和结尾的信息的趋势,同时忽略了中间的内容。这种偏见可能会产生重大的现实后果,可能导致AI系统的不准确或不完整的响应。

一组麻省理工学院的研究人员现在指出了这种缺陷的根本原因。他们的研究表明,位置偏见不仅源于用于教授LLM的培训数据,还来自模型体系结构本身中的基本设计选择,尤其是基于变压器的模型处理注意力和单词定位的方式。

他们的研究表明,位置偏见不仅源于培训数据

Transformers是大多数LLM背后的神经网络体系结构,它是通过将句子编码为代币的,并了解这些令牌如何相互联系的句子。为了理解文本的长序列,模型采用了注意机制。这些系统允许代币选择性地“专注”顺序中其他地方的相关令牌,从而帮助模型理解上下文。

但是,由于允许每个令牌参与其他所有令牌的巨大计算成本,开发人员经常使用因果面具。这些约束将每个令牌限制为仅考虑序列中的前代币。此外,添加位置编码以帮助模型跟踪单词的顺序。

使用Graph Databases

根据麻省理工学院博士学生兼研究的主要作者Xinyi Wu的说法,他们的框架有助于表明,即使数据是中性的,架构本身也可以偏向于模型的重点。