言语情感识别(SER)被认为是研究的关键领域,在各种实时应用中具有重要的重要性,例如评估人类行为并在紧急情况下分析说话者的情绪状态。本文在这种情况下评估了深卷卷神经网络(CNN)的能力。CNN和长期的短期记忆(LSTM)深度神经网络都经过评估以进行语音情绪识别。在我们的经验评估中,我们利用多伦多的情感演讲集(TESS)数据库,该数据库包括来自年轻人和老年人的语音样本,涵盖了七种不同的情感:愤怒,幸福,悲伤,恐惧,惊喜,厌恶和中立性。为了增强数据集,语音变化与添加白噪声一起引入。经验发现表明,CNN模型的表现优于现有的有关使用Tess语料库的SER研究,从而在平均识别精度上提高了21%的提高。这项工作强调了SER的意义,并突出了深CNN在增强其在实时应用中的有效性的变革潜力,尤其是在高风险紧急情况下。
主要关键词