摘要 目的 . 脑机接口 (BCI) 有可能为患有神经系统疾病、说话肌肉无力的患者的言语能力保留或恢复。然而,成功训练低延迟语音合成和识别模型需要将神经活动与预期的语音或声学输出以高时间精度对齐。这对于无法发出可听见的言语的患者来说尤其具有挑战性,因为没有可以用于精确定位与言语同步的神经活动的基本事实。方法 . 在本研究中,我们提出了一种用于神经语音活动检测 (nVAD) 的新型迭代算法,称为迭代对齐发现动态时间规整 (IAD-DTW),该算法将 DTW 集成到深度神经网络 (DNN) 的损失函数中。该算法旨在发现患者的皮层脑电图 (ECoG) 神经反应与他们在收集数据以训练 BCI 解码器进行语音合成和识别期间说话尝试之间的对齐方式。主要结果 .为了证明该算法的有效性,我们测试了它在预测健全且有完整言语能力的患者产生的声音信号的开始和持续时间的准确性,这些患者正在接受癫痫手术的短期诊断性 ECoG 记录。我们通过随机扰动神经活动与所有言语开始和持续时间的初始单一估计之间的时间对应关系来模拟缺乏基本事实的情况。我们检查了模型克服这些扰动以估计基本事实的能力。在这些模拟中,即使在语音和静默之间存在最大错位的情况下,IAD-DTW 的性能也没有明显下降(准确度绝对下降 < 1%)。意义。IAD-DTW 计算成本低,并且可以轻松集成到现有的基于 DNN 的 nVAD 方法中,因为它只与最终的损失计算有关。这种方法使得使用无法产生可听言语的患者(包括患有闭锁综合症的患者)的 ECoG 数据来训练语音 BCI 算法成为可能。
主要关键词