详细内容或原文请订阅后点击阅览
语音合成:使用深度学习回顾最佳文本转语音架构
探索最流行的深度学习模型来执行文本到语音 (TTS) 合成
来源:AI夏令营语音合成是从文本、唇部动作等其他模态生成语音的任务。在大多数应用中,由于自然语言系统的快速发展,文本被选为初步形式。文本转语音 (TTS) 系统旨在将自然语言转换为语音。
多年来,出现了许多不同的方法,其中最突出的是串联合成和参数合成。
串联合成
顾名思义,串联合成基于预先录制的语音片段的串联。这些片段可以是完整的句子、单词、音节、双音素,甚至是单个音素。它们通常以波形或频谱图的形式存储。
预先录制的语音片段的串联我们在语音识别系统的帮助下获取片段,然后根据它们的声学特性(例如它们的基频)对它们进行标记。在运行时,通过从数据库中确定最佳候选单元链(单元选择)来创建所需的序列。
统计参数合成
参数合成也利用录制的人声。 不同之处在于我们使用一个函数和一组参数来修改语音。 让我们分解一下:
使用一个函数和一组参数来修改语音统计参数语音合成
统计参数语音合成 统计参数语音合成在统计参数合成中,我们通常有两个部分。 训练和合成。 在训练期间,我们提取一组表征音频样本的参数,例如频谱(声道)、基频(语音源)和语音持续时间(韵律)。 然后我们尝试使用统计模型估计这些参数。历史上已被证明能提供最佳结果的模型是隐马尔可夫模型 (HMM)。
使用统计模型估计这些参数