在人与人之间的互动中,检测情绪通常很容易,因为可以通过面部表情、肢体动作或语音感知到情绪。然而,在人机交互中,检测人类情绪可能是一项挑战。为了改善这种互动,出现了“语音情绪识别”一词,目的是仅通过语音语调识别情绪。在这项工作中,我们提出了一种基于深度学习方法和两种高效数据增强技术(噪声添加和频谱图移位)的语音情绪识别系统。为了评估所提出的系统,我们使用了三个不同的数据集:TESS、EmoDB 和 RAVDESS。我们采用了多种算法,例如梅尔频率倒谱系数 (MFCC)、零交叉率 (ZCR)、梅尔频谱图、均方根值 (RMS) 和色度,以选择最合适的代表语音情绪的声音特征。为了开发我们的语音情感识别系统,我们使用了三种不同的深度学习模型,包括多层感知器 (MLP)、卷积神经网络 (CNN) 和将 CNN 与双向长短期记忆 (Bi-LSTM) 相结合的混合模型。通过探索这些不同的方法,我们能够确定最有效的模型,以便在实时情况下从语音信号中准确识别情绪状态。总的来说,我们的工作证明了所提出的深度学习模型的有效性,
主要关键词