详细内容或原文请订阅后点击阅览
语音质量尺寸为非典型语音和影响
知觉语音质量维度描述了非典型语音和其他语音调制的关键特征。在这里,我们开发和评估了七个语音和语音维度的语音质量模型(可理解性,不精确的辅音,苛刻的声音,自然,单片,莫诺维奇和呼吸)。对公共语音可访问性(SAP)项目数据集进行了培训,其中有434位扬声器的11,184个样本,使用冷冻预培训模型的嵌入作为功能。我们发现,我们的探针在语音引起的探针既有强大的表现又有强烈的概括……
来源:Apple机器学习研究知觉语音质量维度描述了非典型语音和其他语音调制的关键特征。在这里,我们开发和评估了七个语音和语音维度的语音质量模型(可理解性,不精确的辅音,苛刻的声音,自然,单片,莫诺维奇和呼吸)。对公共语音可访问性(SAP)项目数据集进行了培训,其中有434位扬声器的11,184个样本,使用冷冻预培训模型的嵌入作为功能。我们发现,在SAP数据集中,我们的探针在语音启发类别中既有强大的性能又具有强烈的概括。我们进一步验证了其他数据集上的零拍摄性能,包括看不见的语言和任务:意大利非典型语音,英语非典型语音和情感语音。在一系列评估中,强大的零击性能和结果的解释性表明,在与说话风格相关的任务中使用语音质量维度的实用性。
- †在Apple