语音合成：使用深度学习回顾最佳文本转语音架构 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

语音合成：使用深度学习回顾最佳文本转语音架构

2021年5月13日 00:00 33 Comments

探索最流行的深度学习模型来执行文本到语音 (TTS) 合成

来源:AI夏令营

语音合成是从文本、唇部动作等其他模态生成语音的任务。在大多数应用中，由于自然语言系统的快速发展，文本被选为初步形式。文本转语音 (TTS) 系统旨在将自然语言转换为语音。

多年来，出现了许多不同的方法，其中最突出的是串联合成和参数合成。

顾名思义，串联合成基于预先录制的语音片段的串联。这些片段可以是完整的句子、单词、音节、双音素，甚至是单个音素。它们通常以波形或频谱图的形式存储。

预先录制的语音片段的串联

我们在语音识别系统的帮助下获取片段，然后根据它们的声学特性（例如它们的基频）对它们进行标记。在运行时，通过从数据库中确定最佳候选单元链（单元选择）来创建所需的序列。

参数合成也利用录制的人声。不同之处在于我们使用一个函数和一组参数来修改语音。让我们分解一下：

使用一个函数和一组参数来修改语音

统计参数语音合成

统计参数语音合成 统计参数语音合成

在统计参数合成中，我们通常有两个部分。训练和合成。在训练期间，我们提取一组表征音频样本的参数，例如频谱（声道）、基频（语音源）和语音持续时间（韵律）。然后我们尝试使用统计模型估计这些参数。历史上已被证明能提供最佳结果的模型是隐马尔可夫模型 (HMM)。

使用统计模型估计这些参数

Y\mathbf{Y}Y Y

音节统计例如预先录制语音单元合成片段参数基频系统的模型串联文本