语音合成:使用深度学习回顾最佳文本转语音架构

探索最流行的深度学习模型来执行文本到语音 (TTS) 合成

来源:AI夏令营

语音合成是从文本、唇部动作等其他模态生成语音的任务。在大多数应用中,由于自然语言系统的快速发展,文本被选为初步形式。文本转语音 (TTS) 系统旨在将自然语言转换为语音。

多年来,出现了许多不同的方法,其中最突出的是串联合成和参数合成。

串联合成

顾名思义,串联合成基于预先录制的语音片段的串联。这些片段可以是完整的句子、单词、音节、双音素,甚至是单个音素。它们通常以波形或频谱图的形式存储。

预先录制的语音片段的串联

我们在语音识别系统的帮助下获取片段,然后根据它们的声学特性(例如它们的基频)对它们进行标记。在运行时,通过从数据库中确定最佳候选单元链(单元选择)来创建所需的序列。

统计参数合成

参数合成也利用录制的人声。 不同之处在于我们使用一个函数和一组参数来修改语音。 让我们分解一下:

使用一个函数和一组参数来修改语音

统计参数语音合成

统计参数语音合成 统计参数语音合成

在统计参数合成中,我们通常有两个部分。 训练和合成。 在训练期间,我们提取一组表征音频样本的参数,例如频谱(声道)、基频(语音源)和语音持续时间(韵律)。 然后我们尝试使用统计模型估计这些参数。历史上已被证明能提供最佳结果的模型是隐马尔可夫模型 (HMM)。

使用统计模型估计这些参数

语音合成评估

Y\mathbf{Y}Y Y