详细内容或原文请订阅后点击阅览
用标签差异对语音情绪进行建模,并分析跨说话者和看不见的声学条件
自发的语音情感数据通常包含感知成绩,在听语音文件后,等级分配情感得分。由于级别的意见差异,这种感知等级引起了标签的不确定性。通过使用共识等级作为地面图,选择了最高投票的情绪,因此可以解决级别的变化,因此无法考虑含糊的情况,在这种情况下,语音样本可能包含多种情绪,如通过级别的意见不确定性所捕获的那样。我们证明,将情绪等级的概率密度函数作为…
来源:Apple机器学习研究自发的语音情感数据通常包含感知成绩,在听语音文件后,等级分配情感得分。由于级别的意见差异,这种感知等级引起了标签的不确定性。通过使用共识等级作为地面图,选择了最高投票的情绪,因此可以解决级别的变化,因此无法考虑含糊的情况,在这种情况下,语音样本可能包含多种情绪,如通过级别的意见不确定性所捕获的那样。我们证明,与文献中报道的结果相比,使用情绪等级的概率密度函数作为目标,而不是常用的共识等级,在基准评估集上提供了更好的性能。我们研究了显着性驱动的基础模型(FM)表示选择,以训练多任务语音情感模型,并在维度和绝对情感识别上展示最先进的表现。比较从不同的FMS获得的表示,我们观察到,专注于整体测试绩效可能是欺骗的,因为它可能无法揭示跨说话者和性别的模型概括能力。我们证明,跨多个测试集的绩效评估和性别跨性别的绩效分析对于评估情绪模型的现实有用性很有用。最后,我们证明了标签不确定性和数据扭曲在模型评估中构成了重大挑战,在这种情况下,不使用最佳假设,而是考虑使用最佳假设,而是有用的。