Loading...
机构名称:
¥ 1.0

摘要。尽管近年来有多项研究通过非侵入性技术对大脑活动中的语音解码进行了研究,但这项任务仍然是一项挑战,因为解码质量仍然不足以满足实际应用。有效的解决方案可以帮助脑机接口 (BCI) 的发展,有可能使患有言语障碍的人恢复交流。同时,这些研究可以为大脑如何处理语音和声音提供根本性的见解。解码感知语音的方法之一是使用经过对比学习训练的自监督模型。该模型以零样本方式将脑磁图 (MEG) 中相同长度的片段与音频进行匹配。我们通过结合基于 CNN Transformer 的新架构改进了解码感知语音的方法。由于提出的修改,感知语音解码的准确率从目前的 69% 显着提高到 83%,从 67% 提高到 70%(在公开可用的数据集上)。值得注意的是,准确率的最大提升体现在较长的、带有语义的语音片段中,而不是较短的、带有声音和音素的语音片段中。我们的代码可在 https://github.com/maryjis/MEGformer/ 上找到

MEGFormer:通过扩展语义表示来增强大脑活动的语音解码

MEGFormer:通过扩展语义表示来增强大脑活动的语音解码PDF文件第1页

MEGFormer:通过扩展语义表示来增强大脑活动的语音解码PDF文件第2页

MEGFormer:通过扩展语义表示来增强大脑活动的语音解码PDF文件第3页

MEGFormer:通过扩展语义表示来增强大脑活动的语音解码PDF文件第4页

MEGFormer:通过扩展语义表示来增强大脑活动的语音解码PDF文件第5页

相关文件推荐

2024 年
¥1.0