详细内容或原文请订阅后点击阅览
语音识别:对不同深度学习方法的回顾
探索最流行的深度学习架构以执行自动语音识别 (ASR)。从循环神经网络到卷积和 transformers。
来源:AI夏令营人类更喜欢使用同一种语言通过语音进行交流。语音识别可以定义为理解说话者所说单词的能力。
自动语音识别 (ASR) 是指识别人类语音并将其翻译成文本的任务。在过去的几十年里,这一研究领域得到了广泛的关注。它是人机通信的重要研究领域。早期的方法侧重于手动特征提取和传统技术,例如高斯混合模型 (GMM)、动态时间规整 (DTW) 算法和隐马尔可夫模型 (HMM)。
自动语音识别 (ASR) 是指识别人类语音并将其翻译成文本的任务 高斯混合模型 (GMM) 动态时间规整 (DTW) 隐马尔可夫模型 (HMM)最近,神经网络(例如循环神经网络 (RNN)、卷积神经网络 (CNN) 以及近年来的 Transformers)已应用于 ASR 并取得了出色的性能。
如何制定自动语音识别 (ASR)?
ASR 的整体流程可以表示如下:
ASR 系统概述
ASR 系统概述ASR 系统的主要目标是将具有特定长度 TTT 的音频输入信号 x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)x=(x1,x2,…xT) 转换为单词或字符序列(即标签)y=(y1,y2,…,yN\mathbf{y} = ( y_1, y_2, \dots, y_Ny=(y1,y2,…,yN), yn∈Vy_{n}\in \mathbf{V}yn∈V,其中 V\mathbf{V}V 是词汇表。标签可能是字符级标签(即字母)或单词级标签(即单词)。
x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)x=(x1,x2,…xT) x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)x=(x1,x2,…xT) x=(x1,x2,…xT)\mathbf{x} = (x_1, x_2, \dots x_T)