预测神经活动,那么该模型就代表神经系统。相反,说如果模型代表神经系统,那么它预测神经活动是恰当的 [2]。第二种批评强调了在将模型与人类语言处理进行比较时,目标函数、学习规则和架构的差异。在视觉领域,它质疑通过优化分类性能来建模人类物体识别的一般方法可能会因为理论原因而被误导,即人类视觉系统可能并未针对图像分类进行优化 [3,4]。同样,人们的担忧还延伸到语言处理中的词语预测目标函数 [5]。第三种批评认为,计算模型的发现缺乏新颖性,通常是重述现有知识。根据 Barsalou (2017) 的说法,“神经编码研究几乎没有告诉我们这种处理的本质。虽然在 Marr 的计算和实现级别之间映射概念以支持神经编码和解码,但这种方法忽略了 Marr 的算法级别,而算法级别对于理解实现认知的机制至关重要。[6]”。尽管担忧是合理的,但正如乔治·EP·博克斯 (George EP Box) 所说,“所有模型都是错误的,但有些模型是有用的”。尽管在实现上存在根本差异,但先进的计算语言模型模拟了人类的语言能力。将它们视为理解大脑机制的潜在框架有三个主要优势。首先,计算模型可以有效地量化认知指标并识别语言处理中的神经相关性。与人工注释相比,它们对于大数据集注释具有成本效益,并且在处理句法复杂性等复杂指标方面表现出色。利用这些模型进行大脑相关性分析为分析自然数据提供了更大的灵活性,而传统的对比方法主要用于对照实验 [7、8、9、10、11、12、13]。其次,计算模型,尤其是大型语言模型,在各种语言任务中表现出类似人类的行为,提供了一种将来自不同模块的信息拼凑在一起的方法,并以整体的视角深入研究大脑语言处理机制。正如 Kriegeskorte 和 Douglas (2018) 所强调的,整合碎片化知识和结合学科对于获得脑计算模型的理论见解至关重要 [14]。第三,这些模型会产生前瞻性假设来验证大脑背后的语言现象 [15、16、17]。如果一个模型只用特定的结构来模仿人类的表现,就意味着这种架构可能捕获了解释大脑中观察到的行为的信息。为了支持这一观点,Kanwisher 等人 (2023) 提出深度网络可以回答有关大脑的“为什么”问题,这表明对任务的优化会驱动观察到的现象。为了彻底检查计算模型在研究大脑语言处理方面的有效性,本研究深入研究了统计语言模型 (SLM)、浅嵌入模型 (SEM) 和大型语言模型 (LLM) 随着时间的推移所做出的独特贡献。本研究旨在阐明这些模型如何以独特的方式推动大脑研究,探索特定的背景和方法。在接下来的章节中,第 2 节提供了不同计算模型和认知测量的术语。在第 3 节中,我们将深入探讨这些模型提供的三个优势,回顾这些方面的现有工作,并使用相同的训练数据集和评估指标对这些模型进行公平比较。第 4 节总结了这项研究,总结了主要发现和影响。
主要关键词