详细内容或原文请订阅后点击阅览
Switchboard-Affect:会话语音的情绪感知标签
了解语音情感数据集管理和标记的细微差别对于评估语音情感识别 (SER) 模型在现实应用中的潜力至关重要。大多数训练和评估数据集包含表演或伪表演语音(例如播客语音),其中情绪表达可能被夸大或以其他方式故意修改。此外,基于人群感知标记的数据集通常缺乏给注释者的指导方针的透明度。这些因素使得理解模型性能和确定需要改进的必要领域变得困难。到...
来源:Apple机器学习研究了解语音情感数据集管理和标记的细微差别对于评估语音情感识别 (SER) 模型在现实应用中的潜力至关重要。大多数训练和评估数据集包含表演或伪表演语音(例如播客语音),其中情绪表达可能被夸大或以其他方式故意修改。此外,基于人群感知标记的数据集通常缺乏给注释者的指导方针的透明度。这些因素使得理解模型性能和确定需要改进的必要领域变得困难。为了解决这一差距,我们将总机语料库确定为自然主义对话语音的一个有前途的来源,并训练了一群人来标记数据集的分类情绪(愤怒、蔑视、厌恶、恐惧、悲伤、惊讶、幸福、温柔、平静和中性)和维度属性(激活、效价和支配性)。我们将此标签集称为 Switchboard-Affect (SWB-Affect)。在这项工作中,我们详细介绍了我们的方法,包括提供给注释者的定义以及对可能在他们的感知中发挥作用的词汇和副语言线索的分析。此外,我们评估了最先进的 SER 模型,发现不同情绪类别的表现各不相同,其中对愤怒的泛化尤其差。这些发现强调了使用捕获语音自然情感变化的数据集进行评估的重要性。我们发布了 SWB-Affect 的标签,以便在该领域进行进一步分析。
