Zyphra AI 发布具有情感控制和语音克隆功能的 Zonos 文本转语音模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Zyphra AI 发布具有情感控制和语音克隆功能的 Zonos 文本转语音模型

2025年2月11日 09:50 33 Comments

快速发展的 AI 语音通过 Zyphra AI 的新文本转语音模型 Zonos 获得了另一项重要补充。这项技术进步标志着情感智能语音助手发展的重要一步，同时将自己定位为 ElevenLabs 等老牌公司的经济实惠的替代品。 Zonos 通过两项主要创新与竞争对手拉开了距离：复杂的情绪控制 [...]Zyphra AI 发布具有情绪控制和语音克隆功能的 Zonos 文本转语音模型一文最先出现在 AI News 上。

来源:AI新闻

这些模型经过 200,000 小时的语音数据训练，主要支持英语，但也支持中文、日语、法语、西班牙语和德语。该系统只需 5-30 秒的音频样本即可进行语音克隆，并且可以通过语速、音调和情绪表达等参数进行控制。 Zonos 使用高质量的音频编解码器 (DAC)，可提供卓越的音质，但需要更多的计算能力。此后，Pro 订阅费用为每分钟 0.02 美元，或 300 分钟费用为 5 美元。由于采用了 Mamba2 架构，混合模型显示出与 Transformer 变体相比，延迟和内存使用情况有所改善。该模型可以在 RTX 4090 上实时生成延迟为 200-300 毫秒的语音。在音频伪影和文本对齐方面存在一些限制，特别是在生成的开始和结束时。

这些模型经过 200,000 小时的语音数据训练，主要支持英语，但也支持中文、日语、法语、西班牙语和德语。

该系统仅提供 5-30 秒音频样本的语音克隆，并且可以通过语速、音调和情绪表达等参数进行控制。

Zonos 使用高品质音频编解码器 (DAC)，可提供卓越的音质，但需要更多的计算能力。

API 每月免费提供 100 分钟，此后每分钟收费 0.02 美元，订阅专业版后每 300 分钟收费 5 美元。

由于采用了 Mamba2 架构，与 Transformer 变体相比，混合模型的延迟和内存使用情况有所改善。

该模型可以在 RTX 4090 上实时生成数字，延迟为 200-300ms。

关于音频伪影和文本对齐存在一些限制，特别是在世代的开始和结束时。

Zonos-v0.1 和语音克隆

Zonos-v0.1 的出色之处在于它能够仅用 5-30 秒的录制语音创建高质量的语音克隆。这项高级功能可以创建自然且富有表现力的声音，并且可以根据各种参数进行调整：

可以微调音质以获得最佳性能。

演示：

克隆延迟音频语音混合支持高级功能 Zonos 在于音质 30 提供模型使用情况计算能力 300 进行情绪 200

Zyphra AI 发布具有情感控制和语音克隆功能的 Zonos 文本转语音模型

Zonos-v0.1 和语音克隆

其他外部链接

Tags

XiaoMi-AI