自动情绪检测正在成为自然人机交互的基石(Alonso-Mart´ın et al., 2013),并且通常集成到人机多模态通信系统中。许多作者研究了情绪的表达和检测(详情见(Zeng et al., 2009)的综述)。大多数视觉情绪检测方法都侧重于面部表情(Gunes and Hung, 2016)。然而,情绪也可以通过肢体语言来表达和感知(De Gelder, 2006)。可以通过考虑表情的运动或相应身体姿势的一些静态视图来分析情绪肢体语言。Saneiro 等人(2014)开发了一种用情绪标记身体动作的系统,所提供的信息可用于数据挖掘技术。此外,Garber-Barron 和 Si(2012)发现,变化后的身体姿势比静止的身体姿势更能代表情绪的自动检测。一些作者提出了将二维 (2D) 静态图像分类为一组情绪状态的自动技术 (Schindler 等人,2008 年;De Silva 和 Bianchi-Berthouze,2004 年),在情感计算领域开启了一条具有挑战性的研究路线。现有的从身体姿势自动检测情绪的机制主要使用计算机视觉技术,其中从图像 (参见 (De Silva 和 Bianchi-Berthouze,2004) 中的示例) 或视频 (例如 (Garber-Barron 和 Si,2012)) 中提取相关信息。此视觉信息