本研究调查了两个问题。一是:除了单个单词之外的句子处理在多大程度上独立于输入模态(语音与阅读)?第二个问题是:两种模态所招募的网络的哪些部分对句法复杂性敏感?这些问题是通过让 200 多名参与者阅读或聆听格式良好的句子或一系列不相连的单词来调查的。发现一个主要位于左半球的额颞顶网络本质上是超模态的,即独立于输入模态。此外,左下额叶 (LIFG) 和左后中颞叶 (LpMTG) 与左分支复杂性最明显相关。左前颞叶对右分支复杂性不同的句子表现出最大的敏感性。此外,LIFG 和 LpMTG 中的活动从句子开始到结束增加,同时左分支复杂性也增加。虽然 LIFG、双侧前颞叶、后 MTG 和左下顶叶均对超模态统一过程有所贡献,但结果表明这些区域对句法复杂性相关处理的贡献各不相同。本文讨论了这些发现对语言处理的神经生物学模型的影响。
已发现,句子生成和理解的神经基础设施大部分是共享的。在说话和听的过程中,会使用相同的区域,但根据模态的不同,它们的激活强度会有所不同。在本研究中,我们调查了模态如何影响先前发现的跨模态句法处理区域之间的连接。我们确定了成分大小和模态如何影响左下额叶 (LIFG) 和左后颞叶 (LPTL) 的三角部与 LIFG 的岛叶部、左前颞叶 (LATL) 和大脑其余部分的连接。我们发现成分大小可靠地增加了这些额叶和颞叶 ROI 之间的连接。两个 LIFG 区域和 LPTL 之间的连接在两种模式下都随着成分大小而增强,并且在生成过程中上调,可能是由于额叶皮层的线性化和运动规划。两个 ROI 与 LATL 的连接较低,并且仅在成分较大时才增强,这表明 LATL 在两种模式下的句子处理中都发挥了贡献作用。因此,这些结果表明,额颞区域之间的连接在句子生成和理解的句法结构构建中上调,为跨模态的句子级处理共享神经资源提供了进一步的证据。
脑编码旨在重建受到刺激时的 fMRI 脑活动。早期的神经编码模型侧重于单模式刺激的脑编码:视觉(预训练的 CNN)或文本(预训练的语言模型)。最近很少有论文获得单独的视觉和文本表示模型,并使用简单的启发式方法进行后期融合。然而,人类大脑使用来自多种模态的信息来感知环境,以前的研究还没有探索用于视觉和文本推理的共同注意多模态编码。本文系统地探讨了图像和多模态 Transformers 对脑编码的功效。在两个流行数据集 BOLD5000 和 Pereira 上进行的大量实验提供了以下见解。 (1) 我们发现,多模态 Transformer VisualBERT 的表现明显优于之前提出的单模态 CNN、图像 Transformer 以及其他之前提出的多模态模型,从而确立了新的最高水平。 (2) LPTG、LMTG、LIFG 和 STS 等具有语言和视觉双重功能的区域与多模态模型的相关性更高,这进一步证明了这些模型擅长模仿人类大脑行为。 (3) 视觉语言模型的优越性引发了一个问题:即使在被动观看图像时,视觉区域引起的反应是否也会受到语言处理的隐性影响。未来的 fMRI 任务可以在适当的实验环境中验证这一计算洞察。我们的代码已公开发布 1 。
脑编码旨在重建受到刺激时的 fMRI 脑活动。早期的神经编码模型侧重于单模式刺激的脑编码:视觉(预训练的 CNN)或文本(预训练的语言模型)。最近很少有论文获得单独的视觉和文本表示模型,并使用简单的启发式方法进行后期融合。然而,人类大脑使用来自多种模态的信息来感知环境,以前的研究还没有探索用于视觉和文本推理的共同注意多模态编码。本文系统地探讨了图像和多模态 Transformers 对脑编码的功效。在两个流行数据集 BOLD5000 和 Pereira 上进行的大量实验提供了以下见解。 (1) 我们发现,多模态 Transformer VisualBERT 的表现明显优于之前提出的单模态 CNN、图像 Transformer 以及其他之前提出的多模态模型,从而确立了新的最高水平。 (2) LPTG、LMTG、LIFG 和 STS 等具有语言和视觉双重功能的区域与多模态模型的相关性更高,这进一步证明了这些模型擅长模仿人类大脑行为。 (3) 视觉语言模型的优越性引发了一个问题:即使在被动观看图像时,视觉区域引起的反应是否也会受到语言处理的隐性影响。未来的 fMRI 任务可以在适当的实验环境中验证这一计算洞察。我们的代码已公开发布 1 。