Loading...
机构名称:
¥ 1.0

对于瘫痪患者来说,无法交流是他们疾病中最痛苦的部分之一。语音脑机接口 (BCI) 可以通过将人们说话时的神经模式转化为句子,从而帮助人们克服这一问题。我们构建了一个管道,该管道由一个 RNN 组成,用于解码神经数据,一个 n-gram 语言模型 (LM),用于输出按可能性排序的可能单词序列列表,以及一个 Transformer 大型语言模型 (LLM),用于选择最可能的序列。我们在 LLM 中实现了对话上下文,其中为模型提供了额外的上下文信息以提高字错误率 (WER),并执行了结构化的超参数搜索。我们发现,在不同的上下文长度下,性能差异并不大,但最佳上下文窗口为 1,000 个字符,最终 WER 为 14.0%,比原始(无上下文)的 WER 16.7% 有所改善。在 600 个测试短语中,我们只能找到 170 个的上下文,有上下文的句子的 WER 为 10.6%。此外,我们使用 OpenAI 的 ChatGPT 直接评估句子,虽然没有成功,但可以提供可解释的结果。我们尝试了不同的 OPT 模型大小,但发现第二大模型(6.7B 参数)以微弱优势取得了最佳结果。

利用对话上下文改进语音脑机接口

利用对话上下文改进语音脑机接口PDF文件第1页

利用对话上下文改进语音脑机接口PDF文件第2页

利用对话上下文改进语音脑机接口PDF文件第3页

利用对话上下文改进语音脑机接口PDF文件第4页

利用对话上下文改进语音脑机接口PDF文件第5页