Zyphra AI 发布具有情感控制和语音克隆功能的 Zonos 文本转语音模型

快速发展的 AI 语音通过 Zyphra AI 的新文本转语音模型 Zonos 获得了另一项重要补充。这项技术进步标志着情感智能语音助手发展的重要一步,同时将自己定位为 ElevenLabs 等老牌公司的经济实惠的替代品。 Zonos 通过两项主要创新与竞争对手拉开了距离:复杂的情绪控制 [...]Zyphra AI 发布具有情绪控制和语音克隆功能的 Zonos 文本转语音模型一文最先出现在 AI News 上。

来源:AI新闻
    这些模型经过 200,000 小时的语音数据训练,主要支持英语,但也支持中文、日语、法语、西班牙语和德语。 该系统只需 5-30 秒的音频样本即可进行语音克隆,并且可以通过语速、音调和情绪表达等参数进行控制。 Zonos 使用高质量的音频编解码器 (DAC),可提供卓越的音质,但需要更多的计算能力。此后,Pro 订阅费用为每分钟 0.02 美元,或 300 分钟费用为 5 美元。由于采用了 Mamba2 架构,混合模型显示出与 Transformer 变体相比,延迟和内存使用情况有所改善。该模型可以在 RTX 4090 上实时生成延迟为 200-300 毫秒的语音。在音频伪影和文本对齐方面存在一些限制,特别是在生成的开始和结束时。
  • 这些模型经过 200,000 小时的语音数据训练,主要支持英语,但也支持中文、日语、法语、西班牙语和德语。
  • 该系统仅提供 5-30 秒音频样本的语音克隆,并且可以通过语速、音调和情绪表达等参数进行控制。
  • Zonos 使用高品质音频编解码器 (DAC),可提供卓越的音质,但需要更多的计算能力。
  • API 每月免费提供 100 分钟,此后每分钟收费 0.02 美元,订阅专业版后每 300 分钟收费 5 美元。
  • 由于采用了 Mamba2 架构,与 Transformer 变体相比,混合模型的延迟和内存使用情况有所改善。
  • 该模型可以在 RTX 4090 上实时生成数字,延迟为 200-300ms。
  • 关于音频伪影和文本对齐存在一些限制,特别是在世代的开始和结束时。
  • Zonos-v0.1 和语音克隆

    Zonos-v0.1 的出色之处在于它能够仅用 5-30 秒的录制语音创建高质量的语音克隆。 这项高级功能可以创建自然且富有表现力的声音,并且可以根据各种参数进行调整:

  • 可以微调音质以获得最佳性能。
  • 演示: