收到:2023年9月18日;接受:2023年12月25日摘要通过听觉,视觉和文本提示识别多方面情绪的研究是一个快速发展的跨学科领域,涵盖了心理学,计算机科学和人工智能领域。本文研究了用于隔离和识别这些模式中复杂情绪状态的方法的范围,目的是描述进步并确定未来研究的领域。在声音领域中,我们探索了信号处理和机器学习技术的进展,从而有助于从人声弯曲和音乐安排中提取细微的情感指标。视觉情绪识别是通过面部识别算法,肢体语言分析以及上下文环境信息整合的有效性来评估的。使用自然语言处理技术检查基于文本的情感识别,以感知书面语言的情感和情感内涵。此外,本文考虑了这些不同情绪数据来源的融合,考虑了构建能够解释多模式输入的连贯模型时所面临的挑战。我们的方法涵盖了最近研究的荟萃分析,评估了各种方法的有效性和精度,并确定了常见的指标进行评估。结果表明,偏爱深度学习和混合模型,以利用多种分析技术的优势来提高识别率。然而,诸如情感的主观性质,表达中的文化差异以及广泛的注释数据集的必要性持续存在的挑战,这是重大障碍。总而言之,这篇综述倡导了更多细微的数据集,增强的跨学科合作以及一个道德框架来管理情绪识别技术的实施。这些技术的潜在应用是广泛的,从医疗保健到娱乐,并且需要一致的努力来完善和道德将情感识别纳入我们的数字互动中。关键字:多模式情绪,融合,机器学习,深度学习,回归,CNN,RNN。