详细内容或原文请订阅后点击阅览
使用多样化建模单元增强基于 CTC 的语音识别
近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确性提升。这提出了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型进行联合训练……
来源:Apple机器学习研究近年来,端到端 (E2E) 自动语音识别 (ASR) 模型的发展令人瞩目,这在很大程度上要归功于 Transformer 等深度学习架构的进步。在 E2E 系统的基础上,研究人员通过使用基于音素的模型重新评分 E2E 模型的 N 个最佳假设,实现了显着的准确度提升。这引发了一个有趣的问题,即除了系统组合效应之外,改进还来自哪里。我们研究了推动这些收益的潜在机制,并提出了一种有效的联合训练方法,其中 E2E 模型与不同的建模单元联合训练。这种方法不仅结合了基于音素和基于字素的模型的优势,而且还表明以协同方式使用这些不同的建模单元可以显着提高模型准确性。我们的研究结果为在开发更强大、更准确的 ASR 系统时最佳地集成异构建模单元提供了新的见解。