Loading...
机构名称:
¥ 1.0

摘要 - 表达文本到语音(TTS)的目的是通过不同的口语风格综合语音,以更好地反映人类的语音模式。在这项研究中,我们试图使用自然语言作为一种提示,以控制合成语音中的样式,例如,“充满悲伤的情绪中的叹气语调,并有些无助的感觉”。考虑到没有现有的TTS语料库适合基于这项新型任务,我们首先构建了语音语料库,其语音样本不仅用内容转录,而且还具有自然语言的样式描述。然后,我们提出了一种表现力的TTS模型,名为Constructtts,该模型在以下方面是新颖的:(1)我们充分利用了自我监督的学习和跨模式公制学习,并提出了一种新颖的三阶段训练程序,以获得一种可有效地嵌入良好的句子模型,可以有效地从样式中捕获促进语音和对照式的演讲风格,从而有效地捕获语义信息。(2)我们建议在离散的潜在空间中对声学特征进行建模,并训练一种新型的离散扩散概率模型,以生成载体定量(VQ)声音令牌,而不是常用的MEL频谱图。(3)我们在声学模型培训期间共同应用共同信息(MI)估计和最小化,以最大程度地减少扬声器和样式的MI,避免使用样式提示中可能的内容和扬声器信息泄漏。已经进行了广泛的客观和主观评估,以验证指令的有效性和表现力。实验结果表明,指令可以通过控制口语样式的样式来合成高层和自然语音。

指令:在离散潜在...

指令:在离散潜在...PDF文件第1页

指令:在离散潜在...PDF文件第2页

指令:在离散潜在...PDF文件第3页

指令:在离散潜在...PDF文件第4页

指令:在离散潜在...PDF文件第5页

相关文件推荐

2014 年
¥2.0