摘要。语音识别是计算机与人类之间的一种交流方式,是计算语言学或自然语言处理的一个分支,有着悠久的历史。自动语音识别 (ASR)、文本转语音 (TTS)、语音转文本、连续语音识别 (CSR) 和交互式语音响应系统是解决该领域问题的不同方法。性能的提高部分归因于深度神经网络 (DNN) 对语音特征中复杂相关性进行建模的能力。在本文中,与使用循环神经网络 (RNN) 处理语音等序列数据的传统模型不同,随着深度网络中不同架构的出现以及传统神经网络 (CNN) 在图像处理和特征提取中的良好性能,CNN 在其他领域的应用得到了发展。结果表明,可以通过 CNN 提取波斯语的韵律特征,对短文本进行语音分段和标记。通过使用 128 和 200 个滤波器作为 CNN 和特殊架构,检测率的误差为 19.46,并且比 RNN 更节省时间。此外,CNN 简化了学习过程。实验结果表明,CNN 网络可以成为各种语言语音识别的良好特征提取器。
主要关键词