前 5 个文本转语音开源模型

探索领先的开源文本转语音模型,这些模型在真实性、情感和性能方面可与高级工具相媲美,以便您可以将想法转化为逼真的声音,并为下一波创作者音频提供动力。

来源:KDnuggets
作者图片

# 简介

#

文本转语音 (TTS) 技术已取得显着进步,使包括我自己在内的许多创作者能够轻松制作用于演示和演示的音频。我经常将视觉效果与 ElevenLabs 等工具结合起来,创建听起来自然的旁白,可与录音室质量的录音相媲美。最好的部分是,开源模型正在迅速与专有产品相媲美,提供高质量的真实感、情感深度、声音效果,甚至能够生成类似于播客的长格式、多扬声器音频。

在本文中,我们将比较当前可用的领先开源 TTS 模型,讨论它们的技术规格、速度、语言支持和具体优势。

# 1.VibeVoice

VibeVoice 是一种先进的文本转语音 (TTS) 模型,旨在直接从文本生成富有表现力的长格式多讲话者对话音频,例如播客。它解决了 TTS 中长期存在的挑战,包括可扩展性、说话者一致性和自然轮流。这是通过将大型语言模型 (LLM) 与运行频率仅为 7.5 Hz 的超高效连续语音标记器相结合来实现的。

VibeVoice

该模型使用两个成对的分词器,一个用于声学处理,另一个用于语义处理,这有助于保持音频保真度,同时允许有效处理很长的序列。

下一个令牌扩散方法使 LLM(本版本中为 Qwen2.5)能够引导对话的流程和上下文,而轻量级扩散头可产生高质量的声学细节。该系统能够合成多达 4 个不同说话者的长达约 90 分钟的语音,超越了以前模型中 1 到 2 个说话者的通常限制。

# 2.奥菲斯

奥菲斯 TTS

# 3.心

KPipeline npm

# 4.OpenAudio

OpenAudio S1

# 5.XTTS-v2

XTTS-v2

# 总结

  • VibeVoice 利用 LLM 引导的对话轮流,非常适合长时间、多发言者对话