详细内容或原文请订阅后点击阅览
Zyphra AI 发布具有情感控制和语音克隆功能的 Zonos 文本转语音模型
快速发展的 AI 语音通过 Zyphra AI 的新文本转语音模型 Zonos 获得了另一项重要补充。这项技术进步标志着情感智能语音助手发展的重要一步,同时将自己定位为 ElevenLabs 等老牌公司的经济实惠的替代品。 Zonos 通过两项主要创新与竞争对手拉开了距离:复杂的情绪控制 [...]Zyphra AI 发布具有情绪控制和语音克隆功能的 Zonos 文本转语音模型一文最先出现在 AI News 上。
来源:AI新闻- 这些模型经过 200,000 小时的语音数据训练,主要支持英语,但也支持中文、日语、法语、西班牙语和德语。 该系统只需 5-30 秒的音频样本即可进行语音克隆,并且可以通过语速、音调和情绪表达等参数进行控制。 Zonos 使用高质量的音频编解码器 (DAC),可提供卓越的音质,但需要更多的计算能力。此后,Pro 订阅费用为每分钟 0.02 美元,或 300 分钟费用为 5 美元。由于采用了 Mamba2 架构,混合模型显示出与 Transformer 变体相比,延迟和内存使用情况有所改善。该模型可以在 RTX 4090 上实时生成延迟为 200-300 毫秒的语音。在音频伪影和文本对齐方面存在一些限制,特别是在生成的开始和结束时。
Zonos-v0.1 和语音克隆
Zonos-v0.1 的出色之处在于它能够仅用 5-30 秒的录制语音创建高质量的语音克隆。 这项高级功能可以创建自然且富有表现力的声音,并且可以根据各种参数进行调整: