从神经信号中解码语言具有重要的理论和实践意义。先前的研究表明从侵入式神经信号中解码文本或语音的可行性。然而,当使用非侵入式神经信号时,由于其质量低下,面临着巨大的挑战。在本研究中,我们提出了一种数据驱动的方法,用于从受试者听连续语音时记录的脑磁图 (MEG) 信号中解码语言语义。首先,使用对比学习训练多受试者解码模型,从 MEG 数据中重建连续词嵌入。随后,采用波束搜索算法根据重建的词嵌入生成文本序列。给定波束中的候选句子,使用语言模型来预测后续单词。后续单词的词嵌入与重建的词嵌入相关联。然后使用这些相关性作为下一个单词的概率度量。结果表明,所提出的连续词向量模型可以有效利用特定主题和共享主题的信息。此外,解码后的文本与目标文本具有显著的相似性,平均 BERTScore 为 0.816,与之前的 fMRI 研究结果相当。
主要关键词