优化端到端 ASR 的字节级表示

在本文中,我们提出了一种优化端到端 (E2E) 自动语音识别 (ASR) 字节级表示的算法。当支持的语言的字符集很大时,大型多语言 ASR 系统通常会使用字节级表示。字节级表示的紧凑性和通用性使 ASR 模型可以使用较小的输出,从而提供更大的灵活性。UTF-8 是最常用的字节级表示,已成功应用于 ASR。然而,它不是为 ASR 或任何机器学习任务设计的。通过使用……

来源:Apple机器学习研究

在本文中,我们提出了一种算法,以优化端到端(E2E)自动语音识别(ASR)的字节级表示。当受支持的语言的字符集很大时,大规模多语言ASR系统通常使用字节级表示。字节级表示的紧凑性和普遍性使ASR模型可以使用较小的输出,因此提供了更大的灵活性。 UTF-8是最常用的字节级表示,已成功应用于ASR。但是,它不是为ASR或任何机器学习任务而设计的。通过使用自动编码器和向量量化,我们表明我们可以优化ASR的字节级表示并实现更好的准确性。我们提出的框架可以结合来自不同方式的信息,并提供误差校正机制。在英语/普通话任务中,我们表明,使用这种方法构建的双语ASR模型可以优于UTF-8代表,而误差率相对5%。