指令：在离散潜在...___XiaoMi-AI 助力科研平台

指令：在离散潜在...

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

指令：在离散潜在...

¥ 1.0

热度

摘要 - 表达文本到语音（TTS）的目的是通过不同的口语风格综合语音，以更好地反映人类的语音模式。在这项研究中，我们试图使用自然语言作为一种提示，以控制合成语音中的样式，例如，“充满悲伤的情绪中的叹气语调，并有些无助的感觉”。考虑到没有现有的TTS语料库适合基于这项新型任务，我们首先构建了语音语料库，其语音样本不仅用内容转录，而且还具有自然语言的样式描述。然后，我们提出了一种表现力的TTS模型，名为Constructtts，该模型在以下方面是新颖的：（1）我们充分利用了自我监督的学习和跨模式公制学习，并提出了一种新颖的三阶段训练程序，以获得一种可有效地嵌入良好的句子模型，可以有效地从样式中捕获促进语音和对照式的演讲风格，从而有效地捕获语义信息。（2）我们建议在离散的潜在空间中对声学特征进行建模，并训练一种新型的离散扩散概率模型，以生成载体定量（VQ）声音令牌，而不是常用的MEL频谱图。（3）我们在声学模型培训期间共同应用共同信息（MI）估计和最小化，以最大程度地减少扬声器和样式的MI，避免使用样式提示中可能的内容和扬声器信息泄漏。已经进行了广泛的客观和主观评估，以验证指令的有效性和表现力。实验结果表明，指令可以通过控制口语样式的样式来合成高层和自然语音。

添加pdf代下载 VIP点击下载文件