Loading...
机构名称:
¥ 1.0

大规模自回归文本到语音(TTS)模型可以产生与人类言语几乎没有区别的语音。但是,由于记忆和计算限制,培训大语言模型(LLMS)具有挑战性。本文描述了我们2024对话语音克隆挑战(COVOC)的TTS方法。我们的方法通过扩展中文拼音词汇并减少仅解码器式变压器体系结构中的层数来修改劳拉格模型,以综合中文和英语文本。尽管使用了最少的训练数据,但在主观和某些客观评估中,我们的方法和其他受约束系统之间的性能差距相对较小。本文讨论了我们试图训练轻量级LLM的零拍摄TTS的尝试,并分析了导致低性能的因素。我们的音频样本可以在线访问1。索引术语:文本到语音,语音识别,人类计算机互动,计算副语言学

语音综合的轻巧语言模型

语音综合的轻巧语言模型PDF文件第1页

语音综合的轻巧语言模型PDF文件第2页

语音综合的轻巧语言模型PDF文件第3页

语音综合的轻巧语言模型PDF文件第4页

语音综合的轻巧语言模型PDF文件第5页