芝麻语音模型:该病毒AI模型如何产生类似人类的语音

深入研究残留矢量量化器,对话语音AI和健谈的变压器。芝麻后的语音模型:该病毒AI模型如何产生类似人类的语音,首先出现在数据科学上。

来源:走向数据科学

发布了他们最新语音到语音模型的演示。一个非常擅长说话,他们提供相关答案,用表达方式说话,老实说,他们只是非常有趣和互动的演讲。

真的

请注意,技术论文尚未发布,但是它们确实有一个简短的博客文章,该文章提供了有关他们使用的技术和以前构建的算法的大量信息。

请注意,技术论文尚未发布,但它们确实有 简短的博客文章 提供了有关他们使用的技术和以前构建的算法的大量信息。

谢天谢地,他们为我提供了足够的信息来撰写本文并从中制作YouTube视频。继续阅读!

YouTube视频

培训会话语音模型

芝麻是一种对话性语音模型或CSM。它输入文本和音频,并以音频形式生成语音。尽管他们尚未在文章中透露培训数据来源,但我们仍然可以尝试进行牢固的猜测。博客文章大量引用了另一个CSM,2024年的Moshi,幸运的是,Moshi的创建者确实在论文中揭示了他们的数据源。 Moshi使用700万小时的无监督语音数据,170小时的自然和脚本对话(用于多流培训)以及2000个小时的电话对话(Fischer数据集)。

对话语音模型 博客文章 2024的莫西 700万小时 170小时 2000个小时
芝麻建立在莫西纸上(2024)
Moshi Paper 但是生成音频需要什么? 以原始形式,音频只是幅度值的长序列 - 波形。例如,如果您要以24 kHz进行抽样音频,则每秒捕获24,000个浮点值。 以原始形式,音频只是幅度值的长序列 这里有24000个值代表语音的1秒! (作者生成的图像)​​ 当然,仅一秒钟的数据处理24000浮点值是相当密集的

Moshi Paper

但是生成音频需要什么?

以原始形式,音频只是幅度值的长序列 - 波形。例如,如果您要以24 kHz进行抽样音频,则每秒捕获24,000个浮点值。
以原始形式,音频只是幅度值的长序列
这里有24000个值代表语音的1秒! (作者生成的图像)​​ 当然,仅一秒钟的数据 mimi coder

深度学习视频