在人与人之间的互动中,检测情绪通常很容易,因为它可以通过面部表情、肢体动作或言语来感知。然而,在人机交互中,检测人类情绪可能是一个挑战。为了改善这种互动,出现了“语音情绪识别”一词,其目标是仅通过语音语调来识别情绪。在这项工作中,我们提出了一种基于深度学习方法和两种高效数据增强技术(噪声添加和频谱图移位)的语音情绪识别系统。为了评估所提出的系统,我们使用了三个不同的数据集:TESS、EmoDB 和 RAVDESS。我们采用了多种算法,例如梅尔频率倒谱系数 (MFCC)、零交叉率 (ZCR)、梅尔频谱图、均方根值 (RMS) 和色度,以选择最合适的代表语音情感的声音特征。为了开发我们的语音情感识别系统,我们使用了三种不同的深度学习模型,包括多层感知器 (MLP)、卷积神经网络 (CNN) 和结合 CNN 与双向长短期记忆 (Bi-LSTM) 的混合模型。通过探索这些不同的方法,我们能够确定最有效的模型,用于在实时情况下从语音信号中准确识别情绪状态。总体而言,我们的工作证明了所提出的深度学习模型的有效性,