Kyutai 的 AI 语音助手抢先公开发布

我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。Moshi 是一款实时语音 AI 助手,由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。然后对 Moshi 进行合成对话微调,以教它如何互动。Moshi 可以理解和表达 70 种不同的情绪,并以各种风格和口音说话。其 200 毫秒端到端延迟的演示非常令人印象深刻。通过同时聆听、思考和说话,Kyutai 的 AI 语音助手在公开发布方面击败 OpenAI 的帖子首先出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。

我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。

Moshi 是一款实时语音 AI 助手,由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。 然后对 Moshi 进行合成对话微调,教它如何互动。

Moshi 可以理解和表达 70 种不同的情绪,并以各种风格和口音说话。 其 200 毫秒端到端延迟的演示非常令人印象深刻。 通过同时聆听、思考和说话,实时互动是无缝的,没有尴尬的停顿。

听起来可能不像 GPT-4o 的 Sky 那样撩人,OpenAI 表示后者并不是在模仿斯嘉丽·约翰逊,但 Moshi 的响应速度更快,而且是公开可用的。

不是在模仿斯嘉丽·约翰逊

Moshi 的声音是通过一位配音演员 Kyutai 制作的音频样本进行训练而获得的,Kyutai 被称为“爱丽丝”,但没有提供更多细节。

Moshi 打断和回应的方式让人难以察觉的停顿让与 AI 模型的互动感觉非常自然。

以下是 Moshi 加入科幻角色扮演的一个例子。

Helium 7B 比 GPT-4o 小得多,但它的小尺寸意味着你可以在消费级硬件上或使用低功耗 GPU 在云端运行它。

在演示过程中,Kyutai 工程师使用 MacBook Pro 展示了 Moshi 如何在设备上运行。

虽然有点小故障,但这是一个有希望的迹象,表明我们很快就会在手机或电脑上运行低延迟的 AI 语音助手,而无需将我们的私人数据发送到云端。

如果您想与 Moshi 聊天,可以在这里尝试:https://kyutai.org/

https://kyutai.org/

重要的是要记住,Moshi 是一个实验原型,它是由 8 名工程师组成的团队在短短 6 个月内创建的。