BASE TTS:十亿参数文本转语音模型的力量

亚马逊最新的 TTS 模型及其创新架构为语音合成树立了新的标杆。 BASE TTS 不仅实现了无与伦比的语音自然度,而且在处理各种语言属性和细微差别方面表现出非凡的适应性。

来源:Qudata

BASE TTS:十亿参数文本转语音模型的强大功能

亚马逊在人工智能 (AI) 领域的最新突破,推出了最大的文本转语音模型,震惊了科技界。这个庞大的模型由亚马逊 AGI 的 AI 研究团队开发,拥有令人印象深刻的 9.8 亿个参数,并使用了 100,000 小时的录音进行训练,主要以英语为主。这个创新模型被称为具有新兴能力的大型自适应流式 TTS (BASE TTS),代表了语音合成技术领域的重大飞跃。

最大的文本转语音模型

让我们来分析一下它最吸引人的功能:

架构

架构
    10 亿参数自回归变换器:BASE TTS 的核心是一个巨大的自回归变换器。该神经网络将原始文本转换为称为“语音代码”的离散代码。基于卷积的解码器:根据语音代码,基于卷积的解码器将它们转换为实际波形。其美妙之处在于其增量、可流式传输的方法,允许实时合成。
  • 10 亿参数自回归变换器:BASE TTS 的核心是一个巨大的自回归变换器。该神经网络将原始文本转换为离散代码,称为“语音代码”。
  • 基于卷积的解码器:根据语音代码,基于卷积的解码器将它们转换为实际波形。其美妙之处在于其增量、可流式传输的方法,允许实时合成。
  • 一种新颖的语音代码方法

    一种新颖的语音代码方法
  • 基于自动编码器的语音标记:BASE TTS 引入了一种新颖的语音标记技术。这些语音标记使用字节对编码解开说话者身份并压缩信息。
  • 说话者 ID 解开:想象一个可以无缝模仿不同说话者的 TTS 系统。 BASE TTS 通过将说话者特征与原始音频解开来实现这一点。
  • 最先进的自然度