大型语言模型 (LLM) 在文本理解和逻辑推理方面表现出了卓越的能力,这表明 LLM 学习到的文本表征可以促进其语言处理能力。在神经科学中,大脑认知处理信号通常用于研究人类的语言处理。因此,很自然地会问 LLM 的文本嵌入与大脑认知处理信号的对齐程度如何,以及训练策略如何影响 LLM-大脑对齐?在本文中,我们使用表征相似性分析 (RSA) 来测量 23 个主流 LLM 与大脑 fMRI 信号之间的对齐程度,以评估 LLM 对认知语言处理的模拟效果。我们通过实证研究了各种因素(例如,训练前数据大小、模型缩放、对齐训练和提示)对这种 LLM-大脑对齐的影响。实验结果表明,预训练数据大小和模型缩放与 LLM-大脑相似性呈正相关,1 而对齐训练可以显著提高 LLM-大脑相似性。明确的提示有助于 LLM 与大脑认知语言处理的一致性,而无意义的噪声提示可能会削弱这种对齐。此外,各种 LLM 评估(例如 MMLU、Chatbot Arena)的表现与 LLM-大脑相似性高度相关。
近年来,NLP模型的快速发展主要是通过Google和多伦多大学研究人员开发的变压器体系结构[2] B。变压器体系结构最初用于翻译语言,但是由于其出色的计算性能(通过并行处理所有输入),而不是先前使用的体系结构,因此在几种情况下已经探索了它。此外,由于它在独特的下游应用程序中取得了成功(文本摘要,自动完成,聊天对话生成等。),多年来NLP模型中的参数数量迅速增加,如图1所示。该图显示了自2017年以来模型大小的演变,从变压器模型开始于2017年6月Google宣布的6500万参数。使用虚线描绘了大于1万亿的型号。我们包含的最大模型可以实现以上的参数大小,因为它们使用稀疏激活的结构,在推断期间,只有LLM的一部分神经元的一部分被激活,而不是全部。但是,它们的广泛采用受到复杂性,沟通成本和培训不稳定性等因素的阻碍[15]。尽管存在这些障碍,但它们的建筑设计应被视为未来模型缩放的有力候选人。此外,诸如GPT-4和Gemini之类的模型以其多模式功能而闻名,这不仅可以处理文本,还可以处理诸如Image,Video和Audio之类的视觉和听觉输入。图1基于参考文献[1]中的信息。