使用基于语音检索的增强功能将 ASR 与 LLM 关联化

大型语言模型 (LLM) 已展现出对包括音频和文本在内的多模态信号进行建模的卓越能力,允许模型根据语音输入生成口头或文本响应。然而,当输入模态为语音时,识别个人命名实体(例如电话簿中的联系人)对模型来说仍然是一个挑战。在这项工作中,我们从语音识别任务开始,并提出了一种基于检索的解决方案来将 LLM 情境化:我们首先让 LLM 在没有任何上下文的情况下检测语音中的命名实体,然后使用此命名实体作为查询来检索……

来源:Apple机器学习研究

大型语言模型(LLMS)显示了建模多模式信号(包括音频和文本)的出色能力,从而允许该模型在给定语音输入的情况下生成口语或文本响应。但是,当输入方式是语音时,模型识别个人命名实体(例如电话簿中的联系人)仍然是一个挑战。在这项工作中,我们从语音识别任务开始,然后提出一种基于检索的解决方案,以将LLM上下文化:我们首先让LLM在没有任何上下文的情况下将LLM检测到命名的实体,然后将此命名的实体用作查询,以从个人数据库中检索语音上相似的命名实体,然后将其馈送到LLM,然后将其馈送到LLM,并最终运行上下文aware llm llm decoded。在语音助手任务中,与基线系统相比,我们的解决方案最多可实现30.2%的相对单词错误率降低和73.6%的相对命名实体错误率,而没有上下文化。值得注意的是,我们的设计解决方案避免使用完整命名的实体数据库提示LLM,使其高效且适用于大型命名实体数据库。