详细内容或原文请订阅后点击阅览
SELMA:虚拟助手互动的语言语言模型
在这项工作中,我们介绍和评估Selma,这是一个针对虚拟助手交互的语言语言模型,将音频和文本集成为大型语言模型(LLM)的输入。 Selma旨在处理与单个端到端模型中同时与虚拟助手相互作用相关的三个主要和两个辅助任务。我们采用低级适应模块来对音频编码器和LLM进行参数效率训练。此外,我们实施了一个功能汇总策略,使系统能够识别全球模式并提高任务的准确性……
来源:Apple机器学习研究在这项工作中,我们介绍和评估Selma,这是一个针对虚拟助手交互的语言语言模型,将音频和文本集成为大型语言模型(LLM)的输入。 Selma旨在处理与单个端到端模型中同时与虚拟助手相互作用相关的三个主要和两个辅助任务。我们采用低级适应模块来对音频编码器和LLM进行参数效率训练。此外,我们实施了一个功能汇总策略,使系统能够识别全局模式并提高对单个序列元素较少依赖的任务的准确性。语音触发(VT)检测,设备指导语音检测(DDSD)和自动语音识别(ASR)的实验结果表明,我们的方法都简化了虚拟助手的典型输入处理管道,并显着提高了与每个单独任务的专用模型相比的性能。 SELMA在VT检测任务上的相对相等率提高了64%,而DDSD的相对率提高了22%,同时也达到接近基线的单词错误率。