详细内容或原文请订阅后点击阅览
紧凑型神经 TTS 语音以提高可访问性
当代无障碍应用的文本转语音解决方案通常可分为两类:(i) 基于设备的统计参数语音合成 (SPSS) 或单元选择 (USEL) 和 (ii) 基于云的神经 TTS。SPSS 和 USEL 以牺牲自然度和音频质量为代价,提供低延迟和低磁盘占用。基于云的神经 TTS 系统提供明显更好的音频质量和自然度,但在延迟和响应性方面有所退步,使得它们不适用于实际应用。最近,神经 TTS 模型被部署到……
来源:Apple机器学习研究当前无障碍应用的文本转语音解决方案通常可分为两类:(i) 基于设备的统计参数语音合成 (SPSS) 或单元选择 (USEL) 和 (ii) 基于云的神经 TTS。SPSS 和 USEL 以牺牲自然度和音频质量为代价,提供低延迟和低磁盘占用。基于云的神经 TTS 系统提供明显更好的音频质量和自然度,但在延迟和响应性方面有所退步,使得它们不适用于实际应用。最近,神经 TTS 模型被部署到手持设备上运行。尽管如此,延迟仍然高于 SPSS 和 USEL,而磁盘占用空间不允许同时为多个语音进行预安装。在这项工作中,我们描述了一种高质量的紧凑型神经 TTS 系统,其延迟约为 15 毫秒,磁盘占用空间小。所提出的解决方案能够在低功耗设备上运行。