基于 Transformer 的 ASR N-Best 重新评分和重写模型

语音助手越来越多地使用设备上的自动语音识别 (ASR) 来确保速度和隐私。然而,由于设备的资源限制,涉及复杂信息域的查询通常需要搜索引擎进一步处理。对于这样的应用,我们提出了一种基于 Transformer 的新型模型,该模型能够通过并行探索 N 个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别序列训练目标,它可以很好地用于重新评分和重写任务。我们表明我们的 Rescore+Rewrite 模型优于……

来源:Apple机器学习研究

语音助手越来越多地使用设备上的自动语音识别 (ASR) 来确保速度和隐私。然而,由于设备资源限制,涉及复杂信息域的查询通常需要搜索引擎进一步处理。对于此类应用,我们提出了一种基于 Transformer 的新型模型,该模型能够通过并行探索 N 个最佳假设的完整上下文来重新评分和重写。我们还提出了一种新的判别序列训练目标,它可以很好地用于重新评分和重写任务。我们表明,我们的 Rescore+Rewrite 模型优于仅使用 Rescore 的基线,并且与单独的 ASR 系统相比,相对字错误率 (WER) 平均降低了 8.6%。