说话是一个复杂的过程,需要多个大脑区域和发音器官的参与才能发出特定的声音。言语之前,大脑会花上几百毫秒的时间形成口头语言。一项研究 [3] 表明,大脑平均需要 600 毫秒才能产生一个单词。单词和句子包含几种抽象信息,包括词汇、语法、语音和图形信息。这些成分存储在大脑的言语中枢中。在形成单词之前,各个成分会链接在一起,并将有关发音的信息发送到运动中枢,运动中枢控制发音器官的正确运动。由于言语在人脑中表示为由神经细胞通过电脉冲传输的一簇信息,因此我们可以使用脑机接口 [4] 从神经角度研究言语。
精确的声道建模对于构建可解释语音处理和语言学的发音表征是必不可少的。然而,声道建模具有挑战性,因为许多内部发音器官被外部运动捕捉技术遮挡。实时磁共振成像 (RT-MRI) 可以测量语音过程中内部发音器官的精确运动,但由于标记方法耗时且计算成本高昂,MRI 的注释数据集大小有限。我们首先使用纯视觉分割方法为 RT-MRI 视频提出一种深度标记策略。然后,我们介绍一种使用音频来改进发声器官分割的多模态算法。我们共同为 MRI 视频分割中的声道建模设定了新的基准,并利用该基准为 75 位说话者的 RT-MRI 数据集发布了标签,将声道的带标签公共 RT-MRI 数据量增加了 9 倍以上。代码和数据集标签可在 rishiraij.github.io/multimodal-mri-avatar/ 找到。索引术语:发音语音、视听感知
语音运动控制的 DIVA 模型发音器官速度方向 (DIVA) 模型是一个人工神经网络,可定量描述语音运动控制背后的计算(Guenther,1995;Tourville 和 Guenther,2011;E. Golfinopoulos、Tourville 和 Guenther,2010;有关详细说明,请参阅 Guenther,2016)。它包含一个模拟组件网络,这些组件代表负责产生语音的大脑结构。该模型包括一个模仿声道行为的发音合成器,神经网络学习控制合成器发音器官的运动,以产生可理解的语音。我们在此重点关注模型的神经计算和发展过程的更高级别处理,避免使用数学方程和计算机实现细节,以方便处理。为了理解该模型,我们首先将 定义为大脑中具有自己优化的运动程序的“语音块”。这些块可以是音素、音节和/或单词,具体取决于所考虑的年龄和语言经验。根据许多先前的提议(例如,Kozhevnikov & Chistovich,1965;Levelt,1993;MacNeilage & Davis,1990),并得到音素组合分布分析(Sun & Poeppel,2022;Kessler & Treiman,1997)的支持,我们建议
尽管有大量证据表明感觉运动皮层 (SMC) [ 1 ] 存在身体部位的表征,但对该脑区更详细的运动功能的映射仍然难以实现。虽然一些人报告说 SMC 中各个手指和发音器官的体感表征是有序的 [ 2 , 3 ],但另一些人表明这些身体部位具有重叠的神经表征 [ 4 , 5 ],这表明身体部位内表征缺乏离散的组织。通常用于研究大脑功能的成像技术 (例如 fMRI) 不能区分关键功能和非关键功能。因此,使用这些技术观察到的活动可能表示非必要的参与,例如运动计划或前馈/传出副本。相反,皮层的电刺激只能阐明对执行大脑功能至关重要的区域,因此可以单独研究运动表征。在这里,我们在一名神经外科患者的高密度 (HD) 皮层脑电图 (ECoG) 电极网格上应用了皮质刺激,以根据舌头的 ECoG 映射来研究 SMC 上运动功能的详细表现。
语音生成是一种分层机制,涉及大脑和口腔发音器官的同步,其中语言概念的意图被转化为有意义的声音。闭锁综合征患者(完全瘫痪但有意识)完全失去了运动能力,包括发音甚至眼球运动。神经通路可能是恢复这些患者一定程度交流的唯一选择。当前的脑机接口 (BCI) 使用患者的视觉和注意力相关性来建立交流,导致交流速度较慢(每分钟几个字)。直接从神经信号解码想象中的语音(然后驱动语音合成器)有可能提高交流速度。在本研究中,我们研究了从 8 名成年受试者的单次试验、非侵入性脑磁图 (MEG) 信号中收集的五个想象和口语短语的解码。使用了两种机器学习算法。一种是以统计特征为基线方法的人工神经网络 (ANN)。另一种方法是将卷积神经网络 (CNN) 应用于从 MEG 信号中提取的空间、光谱和时间特征。实验结果表明,可以直接从神经磁信号中解码想象和口语短语。CNN 被发现非常有效,平均解码准确率高达 93%(想象短语)和 96%(口语短语)。
脑损伤后的运动功能 Erinn M. Grigsby 1,2,& , Lilly W. Tang 1,3,& , Arianna Damiani 1,4 , Jonathan C. Ho 1,3 , Isabella M. Montanaro 1,4 , Sirisha Nouduri 1,3 , Sara Trant 5 , Theodora Constantine 6 , Gregory M.亚当斯 6 、凯文·弗兰泽斯 2 、布拉德福德·Z·马洪 7,8 、朱莉·A·菲兹 9,10,11,12 、唐纳德·J·克拉蒙德 6 、凯拉·L·斯蒂潘西奇 13 、豪尔赫·A·冈萨雷斯·马丁内斯 6,10,12,14,+ 、埃尔维拉·皮隆迪尼 1,2,4,12,15,+, * 1. 康复匹兹堡大学神经工程实验室,3520 Fifth Avenue,Suite 300,匹兹堡,宾夕法尼亚州,美国,15213 2. 匹兹堡大学物理医学与康复系,3471 Fifth Avenue,Suite 910,匹兹堡,宾夕法尼亚州,美国,15213 3. 匹兹堡大学医学院,3550 Terrace St,匹兹堡,宾夕法尼亚州,美国,15213 4. 匹兹堡大学生物工程系,151 Benedum Hall,匹兹堡,宾夕法尼亚州,美国,15261 5. 匹兹堡大学耳鼻喉科系,宾夕法尼亚州,美国,15213 6. 匹兹堡大学医学中心神经外科系,200 Lothrop Street,Suite b-400,匹兹堡,宾夕法尼亚州,美国,15213 7. 卡内基梅隆大学心理学系,5000 Forbes Avenue,匹兹堡,宾夕法尼亚州,15213 8. 卡内基梅隆大学神经科学研究所,5000 Forbes Avenue,匹兹堡,宾夕法尼亚州,15213 9. 匹兹堡大学交流科学与障碍系,宾夕法尼亚州,美国,15213 10. 匹兹堡大学神经科学系,宾夕法尼亚州,美国,15213 11. 匹兹堡大学心理学系,宾夕法尼亚州,美国,1521 12. 认知神经基础中心,4400 Fifth Avenue,Suite 115,匹兹堡,宾夕法尼亚州,美国,15213 13. 布法罗大学交流障碍与科学系,122卡里大厅,南校区,纽约州布法罗,美国 14214 14. 匹兹堡大学神经生物学系,200 Lothrop Street,房间 E1440,宾夕法尼亚州匹兹堡,美国,15213 15. 匹兹堡大学临床和转化科学研究所 (CTSI),宾夕法尼亚州匹兹堡,美国 15213 & 这些作者贡献相同 + 共同资深作者 * 通讯作者,elvirap@pitt.edu 摘要 说话和吞咽是复杂的运动行为,依赖于来自运动皮层区域输入神经信号的完整性来控制头部和颈部的肌肉。这些神经通路的损伤会导致关键肌肉无力,从而引起构音障碍和吞咽困难,从而造成严重的社会孤立和吸入和窒息的风险。我们在此展示了运动丘脑的深部脑刺激 (DBS) 改善了两名患有构音障碍和吞咽困难的参与者的言语和吞咽功能。首先,我们证明了 DBS 增加了面部运动皮层的兴奋,增强了运动诱发电位,以及 n=10 名神经通路完整的志愿者的口面发音器官的运动范围和速度。然后,我们证明这种增强作用可立即改善因脑损伤而导致中度吞咽困难和严重构音障碍的患者的吞咽功能。在这个受试者和另一个患有轻度构音障碍的受试者中,我们证明DBS可立即改善呼吸、发声、共振和发音控制障碍,从而使言语清晰度在临床上得到显著改善。我们的数据首次提供了人体证据,证明DBS可用于治疗脑损伤患者的吞咽困难和构音障碍。自然清晰的言语需要控制四个子系统:呼吸、发声、共振和发音;同样,吞咽涉及口腔、咽、喉和食道的顺序协调运动,以安全有效地将物质摄入胃中。这些系统的精确和协调激活取决于皮质脊髓束 (CST) 和皮质延髓束 (CBT) 的完整性,皮质脊髓束支配位于胸部、颈部和肩部的呼吸肌,而皮质延髓束则为喉部、腭部、舌部和面部肌肉提供双侧神经支配 1 。由于中风、脑外伤 (TBI)、脑肿瘤或神经退行性疾病而导致的任何一条束中断的皮质下病变会导致面部和口咽肌肉的意志控制无力和缺陷。这可能会导致各种不良的听觉感知语音特征,例如声音中断和质量受损、语音强度降低或声音产生不精确。这些损伤中的任何一种单独或组合都可能会导致面部和口咽肌肉的意志控制能力减弱和缺陷。这可能会导致各种不良的听觉感知语音特征,例如声音中断和质量受损、语音强度降低或声音产生不精确。这些障碍中的任何一种单独或组合都可能会导致面部和口咽肌肉的意志控制能力减弱和缺陷。这可能会导致各种不良的听觉感知语音特征,例如声音中断和质量受损、语音强度降低或声音产生不精确。这些障碍中的任何一种单独或组合都可能