详细内容或原文请订阅后点击阅览
神经编解码器语言模型 - VALL-E 可以从三秒的录音中重现声音
文本转语音模型通常需要更长的训练样本,而 VALL-E 只需几秒钟就能创造出听起来更自然的合成语音。
来源:Qudata神经编解码器语言模型 - VALL-E 可以从三秒的录音中重现声音
微软的一个研究团队推出了一种新的 AI 系统,该系统能够通过仅三秒的录音模仿人的声音。科学家使用从现成的神经音频编解码器模型中衍生的离散代码训练了一种名为 VALL-E 的神经编解码器语言模型,并将文本转语音 (TTS) 视为条件语言建模任务,而不是连续信号回归。
名为 VALL-E 的神经编解码器语言模型这款新应用程序是基于 Meta 的 EnCodec 音频压缩技术创建的,最初旨在提高电话通话质量。进一步的研究表明,该模型的功能远不止于此。VALL-E 不仅可以模仿声音,还可以模拟音调,甚至可以复制原始录音环境的声学效果。例如,如果原始录音来自电话交谈,那么结果将类似于电话交谈。
VALL-E 开发人员在预训练阶段使用了超过 60,000 小时的录音,这比现有其他系统使用的材料数量多数百倍。 VALL-E 具有上下文学习能力,仅需 3 秒的录音即可合成高质量的个性化语音。
除了减少生成新声音的训练时间外,VALL-E 还可以创建比其他模型更自然的合成语音。 根据实验结果,VALL-E 在语音自然度和说话人相似度方面明显优于当前的 TTS 系统。
请参阅网站上的模型演示。
网站试用 Qudata 提供的便捷 TTS 服务,作为传统在线文本转语音转换器的免费示例。它完全免费,适用于桌面和移动设备。
Qudata 提供的 TTS 服务