基于语音的解决方案的使用是在人类机器人互动(HRI)中进行交流的一种吸引人的替代方法。在这一领域的一个重要挑战是处理遥远的语音,这通常是嘈杂的,并且受回响和随时间变化的声通道的影响。重要的是研究有效的语音解决方案,尤其是在机器人和用户移动的动态环境中,改变说话者和麦克风之间的距离和方向。本文在语音情感识别(SER)的背景下解决了这个问题,这是了解消息的意图和用户的潜在心理状态的重要任务。我们提出了一个带有PR2机器人的新颖设置,该设置同时记录了目标语音和环境噪声。我们的研究不仅在这种动态的机器人用户设置中分析了距离语音的有害效果,以识别语音情绪识别,而且还提供了减轻其效果的措施。我们评估使用两个波束形成方案的使用在空间上使用延迟和-AM(D&S)或最小差异无失真响应(MVDR)过滤语音信号。我们考虑在受控情况下记录的原始培训演讲,并考虑处理训练语言以模拟目标声学环境的情况。我们考虑机器人正在移动的情况(动态情况)而不是移动(静态情况)。为了进行语音情感识别,我们使用梯形网络策略实现的手工制作的功能探索两个最先进的分类器,并通过WAV2VEC 2.0功能表示实现的学习功能。MVDR导致高于基本D&S方法高的信噪比。然而,两种方法都使用使用原始MSP播客训练语言训练的梯子网络提供了非常相似的平均一致性相关系数(CCC)的改进,而HRI子集则相当于116%。对于基于WAV2VEC 2.0的模型,只有D&S才能改善。令人惊讶的是,静态和动态HRI测试子集导致了相似的平均一致性相关系数。最后,模拟训练数据集中的声学环境提供了最高的平均一致性相关系数得分,其HRI子集的分别比原始训练/测试说法与梯子网络和WAV2VEC 2.0相比仅低29%和22%。
主要关键词