语音识别:对不同深度学习方法的回顾

探索最流行的深度学习架构以执行自动语音识别 (ASR)。从循环神经网络到卷积和 transformers。

来源:AI夏令营

人类更喜欢使用同一种语言通过语音进行交流。语音识别可以定义为理解说话者所说单词的能力。

自动语音识别 (ASR) 是指识别人类语音并将其翻译成文本的任务。在过去的几十年里,这一研究领域得到了广泛的关注。它是人机通信的重要研究领域。早期的方法侧重于手动特征提取和传统技术,例如高斯混合模型 (GMM)、动态时间规整 (DTW) 算法和隐马尔可夫模型 (HMM)。

自动语音识别 (ASR) 是指识别人类语音并将其翻译成文本的任务 高斯混合模型 (GMM) 动态时间规整 (DTW) 隐马尔可夫模型 (HMM)

最近,神经网络(例如循环神经网络 (RNN)、卷积神经网络 (CNN) 以及近年来的 Transformers)已应用于 ASR 并取得了出色的性能。

如何制定自动语音识别 (ASR)?

ASR 的整体流程可以表示如下:

ASR 系统概述

ASR 系统概述

ASR 系统的主要目标是将具有特定长度 TTT 的音频输入信号 x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)x=(x1​,x2​,…xT​) 转换为单词或字符序列(即标签)y=(y1,y2,…,yN\mathbf{y} = ( y_1, y_2, \dots, y_Ny=(y1​,y2​,…,yN​), yn∈Vy_{n}\in \mathbf{V}yn​∈V,其中 V\mathbf{V}V 是词汇表。标签可能是字符级标签(即字母)或单词级标签(即单词)。

x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)x=(x1​,x2​,…xT​) x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)x=(x1​,x2​,…xT​) x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T) x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T) x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T) x=(x1,x2,…xT) x = ( x1 x 1 , x2 x 2 , xT x T ) \mathbf{x} = (x_1, x_2, \dots x_T) x=(x1​,x2​,…xT​) x= x x = (x1​,x2​,…xT​) ( x1​ x 1​ 1​ 1​ 1 1 1 1 ,