影响模型对非典型语音的普遍性较弱

语音和语音条件可以改变语音的声学特性,这可能会影响副语言模型的表现,以表达对非典型语音的影响。我们评估了公开可用的模型,以识别非典型语音数据集中语音的分类和维度影响,并将结果与典型语音的数据集进行了比较。我们研究了语音非典型性的三个维度:与发音有关的清晰度; Monopitch与韵律和苛刻有关,这与语音质量有关。我们查看(1)…

来源:Apple机器学习研究

语音和语音条件可以改变语音的声学特性,这可能会影响副语言模型的表现,以表达对非典型语音的影响。我们评估了公开可用的模型,以识别非典型语音数据集中语音的分类和维度影响,并将结果与典型语音的数据集进行了比较。我们研究了语音非典型性的三个维度:与发音有关的清晰度; Monopitch与韵律和苛刻有关,这与语音质量有关。我们查看(1)数据集中的分类影响预测的分布趋势,(2)对典型语音的类似数据集进行分类影响预测的分布比较,以及(3)文本和语音预测的相关性强度,用于价值和唤醒的自发语音。我们发现,情感模型的输出受到语音非典型性的存在和程度的显着影响。例如,与类似的典型语音数据集相比,所有类型和非典型语音等级的语音百分比显着更高。在一项有关改善非典型语音鲁棒性的初步调查中,我们发现伪标记的非典型语音数据的微调模型可提高非典型语音的性能,而不会影响典型语音的表现。我们的结果强调了对语音情感模型的更广泛的培训和评估数据集的需求,以及对语音和语音差异的建模方法的建模方法。