Adaptive Knowledge Distillation for Device-Directed Speech Detection
设备指导的语音检测(DDSD)是一项二进制分类任务,将用户的查询与语音助手(VA)与背景语音或侧面对话分开。这对于实现自然主义用户体验很重要。为此,我们提出知识蒸馏(KD),以提高DDSD准确性,同时确保有效部署。具体而言,我们引入了一种新型的自适应KD方法,该方法从ASR大型预训练的声学编码器(教师)的一般表示转移知识。我们将特定于任务的适配器应用在(冷冻)教师编码器之上,培训…
Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models
这篇论文被 NeurIPS Workshop 2024 的自适应基础模型 (AFM) 研讨会接受。与虚拟助手 (VA) 的后续对话使用户能够无缝地与 VA 交互,而无需使用关键字反复调用它(在第一个查询之后)。因此,从后续查询中进行准确的设备导向语音检测 (DDSD) 对于实现自然的用户体验至关重要。为此,我们探索了大型语言模型 (LLM) 的概念,并在对后续查询进行推理时对第一个查询进行建模(基于 ASR 解码的文本),通过……