延迟融合：将大型语言模型集成到端到端语音识别的首次解码中 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

延迟融合：将大型语言模型集成到端到端语音识别的首次解码中

2025年1月18日 00:00 33 Comments

本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法，但我们在 LLM 方面面临两个实际问题。 (1) LLM 推理在计算上成本高昂。 (2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配，我们需要重新训练 ASR 模型和/或 LLM，这在最好的情况下很耗时，而且在许多情况下是不可行的。我们提出了“延迟融合”，它应用 LLM 分数……

来源:Apple机器学习研究

本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法，但我们在使用 LLM 时面临两个实际问题。(1) LLM 推理的计算成本很高。(2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配，我们需要重新训练 ASR 模型和/或 LLM，这在最好的情况下很耗时，而且在许多情况下是不可行的。我们提出了“延迟融合”，它在解码过程中延迟将 LLM 分数应用于 ASR 假设，并使在 ASR 任务中更容易使用预训练的 LLM。这种方法不仅可以减少 LLM 评分的假设数量，还可以减少 LLM 推理调用的数量。如果 ASR 和 LLM 采用不同的标记，它还允许在解码过程中重新标记 ASR 假设。我们证明，使用 LibriHeavy ASR 语料库和三个公共 LLM（OpenLLaMA 3B & 7B 和 Mistral 7B），延迟融合比浅融合和 N-best 重新评分提供了更高的解码速度和准确性。

准确性不匹配 ASR 标记 LLM 融合数量使用词汇 E2E 计算成本解码语言推理 7B 语料库语音识别延迟假设模型端到端

延迟融合：将大型语言模型集成到端到端语音识别的首次解码中

其他外部链接

Tags

XiaoMi-AI