用于将 ASR 个性化为非典型语音的超网络

*平等贡献者用于个性化自动语音识别 (ASR) 的参数高效微调 (PEFT) 最近显示出将一般人群模型适应非典型语音的前景。然而,这些方法假设对所适应的非典型言语障碍有先验知识——诊断这种障碍需要专业知识,而这些知识并不总是可用的。即使有了这些知识,数据稀缺性和说话者之间/说话者内部的高差异性也进一步限制了传统微调的有效性。为了规避这些挑战,我们首先确定模型的最小集……

来源:Apple机器学习研究

*平等贡献者

用于个性化自动语音识别 (ASR) 的参数高效微调 (PEFT) 最近显示出将一般人群模型适应非典型语音的前景。然而,这些方法假设对所适应的非典型言语障碍有先验知识——诊断需要专业知识,而这些知识并不总是可用的。即使有了这些知识,数据稀缺和说话者之间/说话者内部的高变异性进一步限制了传统微调的有效性。为了规避这些挑战,我们首先确定 ASR 适应所需的最小模型参数集。我们对每个单独参数对适应性能的影响的分析使我们能够将字错误率 (WER) 降低一半,同时适应所有权重的 0.03%。为了减轻对特定群组模型的需求,我们接下来提出了一种新颖的元学习超网络用法,用于针对一组不同的非典型语音特征即时生成高度个性化的话语级适应。通过评估全球、群体和个人层面的适应性,我们表明超网络可以更好地推广到分布范围之外的说话者,同时使用 0.1% 的完整参数预算,将整体相对 WER 降低 75.2%。