从大脑活动中解码语音是医疗保健和神经科学中期待已久的目标。侵入性设备最近导致了这方面的主要里程碑:对颅内记录训练的深度学习算法现在开始解码基本语言特征(例如字母,单词,频谱图)。但是,这种对自然语音和非侵入性脑记录的方法仍然是一个主要挑战。为了解决这些问题,我们引入了一种对比学习模型,该模型训练有素,可以从大量个体的无创录音中解释自然语音的自我监督表达。为了评估这种方法,我们策划并整合了四个公共数据集,其中包括169名志愿者,并在听自然语音的同时,记录了磁性或电脑摄影(M/EEG)(M/EEG)。结果表明,我们的模型可以从3秒钟的MEG信号中识别出相应的语音段,在1,594个不同的可能性中,具有高达44%精度的相应语音段 - 这种性能允许在训练集中不使用短语解码。模型比较和消融分析表明,这些结果直接受益于(i)对比目标,(ii)语音的预估计表示和(iii)(iii)经过多个参与者培训的常见卷积体系结构。总的来说,这些结果描述了帮助沟通障碍患者的有前途的途径,而不会使他们处于脑部手术的风险。
主要关键词