用于设备定向语音检测的自适应知识蒸馏

设备指导的语音检测(DDSD)是一项二进制分类任务,将用户的查询与语音助手(VA)与背景语音或侧面对话分开。这对于实现自然主义用户体验很重要。为此,我们提出知识蒸馏(KD),以提高DDSD准确性,同时确保有效部署。具体而言,我们引入了一种新型的自适应KD方法,该方法从ASR大型预训练的声学编码器(教师)的一般表示转移知识。我们将特定于任务的适配器应用在(冷冻)教师编码器之上,培训…

来源:Apple机器学习研究

设备指导的语音检测(DDSD)是一项二进制分类任务,将用户的查询与语音助手(VA)与背景语音或侧面对话分开。这对于实现自然主义用户体验很重要。为此,我们提出知识蒸馏(KD),以提高DDSD准确性,同时确保有效部署。具体而言,我们引入了一种新型的自适应KD方法,该方法从ASR大型预训练的声学编码器(教师)的一般表示转移知识。我们在(冷冻)教师编码器之上,将特定于任务的适配器与DDSD上的学生模型共同培训。我们证明,所提出的自适应KD在没有蒸馏的情况下优于学生模型,而无关键字(随访)调用,分别提高了 +26%和 +19%的错误率。我们还表明,这种方法在基于变压器和基于构象体的模型体系结构上进行了概括。

    †meta **在Apple
  • †meta
  • **在Apple