详细内容或原文请订阅后点击阅览
检索增强校正命名实体语音识别错误
近年来,端到端自动语音识别 (ASR) 系统已证明其具有出色的准确性和性能,但这些系统对于训练数据中不经常出现的实体名称仍然具有显着的错误率。随着端到端 ASR 系统的兴起,大型语言模型 (LLM) 已被证明是各种自然语言处理 (NLP) 任务的多功能工具。在具有相关知识数据库的 NLP 任务中,检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果。在这项工作中,我们提出……
来源:Apple机器学习研究近年来,端到端的自动语音识别(ASR)系统已经证明了自己非常准确且性能,但是这些系统对于实体名称仍然存在很大的错误率,而这些实体名称在其培训数据中显得很少。与端到端ASR系统的兴起并行,大型语言模型(LLMS)已被证明是用于各种自然语言处理(NLP)任务的多功能工具。在可用的相关知识数据库的NLP任务中,与LLM一起使用时,检索增强发电(RAG)取得了令人印象深刻的结果。在这项工作中,我们提出了一种类似抹布的技术,用于纠正语音识别实体名称错误。我们的方法使用矢量数据库来索引一组相关实体。在运行时,数据库查询是由可能错误的文本ASR假设生成的,并且使用这些查询检索的实体与ASR假设一起被馈送到已改编以纠正ASR错误的LLM。总体而言,我们的最佳系统可在合成测试集上降低33%-39%的相对单词错误率降低,重点是稀有音乐实体的语音助手查询,而无需在停止测试集上退缩,这是一个涵盖许多域的公开可用的语音助手测试集。