为虚拟助手提供以口语实体为中心的知识查询的服务器端重新评分

由自动语音识别 (ASR) 提供支持的设备虚拟助手需要有效的知识整合才能完成具有挑战性的实体丰富的查询识别。在本文中,我们使用各种类别的语言模型(N-Gram 词语言模型、子词神经 LM)对服务器端重新评分口头信息域查询的建模策略进行了实证研究。我们研究了设备上和服务器端信号的组合,并通过集成各种服务器端信号,在各种以实体为中心的查询子群体中展示了 23%-35% 的显着 WER 改进……

来源:Apple机器学习研究

由自动语音识别 (ASR) 驱动的设备虚拟助手需要有效的知识整合,才能完成具有挑战性的实体丰富的查询识别。在本文中,我们使用各种类别的语言模型(N-Gram 词语言模型、子词神经 LM)对语音信息域查询的服务器端重新评分建模策略进行了实证研究。我们研究了设备上和服务器端信号的组合,并通过集成各种服务器端 LM,与仅在设备上执行 ASR 相比,在各种以实体为中心的查询子群体中实现了 23%-35% 的显着 WER 改进。

我们还对在域数据上训练的 LM 与 OpenAI 提供的 GPT-3 变体作为基线进行了比较。

此外,我们还表明,从头开始训练的多个服务器端 LM 的模型融合最有效地结合了每个模型的互补优势,并将从特定于领域的数据中学习到的知识集成到 VA ASR 系统中。