延迟融合:将大型语言模型集成到端到端语音识别的首次解码中
本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法,但我们在 LLM 方面面临两个实际问题。 (1) LLM 推理在计算上成本高昂。 (2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配,我们需要重新训练 ASR 模型和/或 LLM,这在最好的情况下很耗时,而且在许多情况下是不可行的。我们提出了“延迟融合”,它应用 LLM 分数……
来源:Apple机器学习研究本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法,但我们在使用 LLM 时面临两个实际问题。(1) LLM 推理的计算成本很高。(2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配,我们需要重新训练 ASR 模型和/或 LLM,这在最好的情况下很耗时,而且在许多情况下是不可行的。我们提出了“延迟融合”,它在解码过程中延迟将 LLM 分数应用于 ASR 假设,并使在 ASR 任务中更容易使用预训练的 LLM。这种方法不仅可以减少 LLM 评分的假设数量,还可以减少 LLM 推理调用的数量。如果 ASR 和 LLM 采用不同的标记,它还允许在解码过程中重新标记 ASR 假设。我们证明,使用 LibriHeavy ASR 语料库和三个公共 LLM(OpenLLaMA 3B & 7B 和 Mistral 7B),延迟融合比浅融合和 N-best 重新评分提供了更高的解码速度和准确性。