Kyutai 的 AI 语音助手抢先公开发布 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Kyutai 的 AI 语音助手抢先公开发布

2024年7月7日 11:59 33 Comments

我们仍在等待 OpenAI 发布其 GPT-4o 语音助手，但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。Moshi 是一款实时语音 AI 助手，由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。然后对 Moshi 进行合成对话微调，以教它如何互动。Moshi 可以理解和表达 70 种不同的情绪，并以各种风格和口音说话。其 200 毫秒端到端延迟的演示非常令人印象深刻。通过同时聆听、思考和说话，Kyutai 的 AI 语音助手在公开发布方面击败 OpenAI 的帖子首先出现在 DailyAI 上。

来源:DailyAI | 探索人工智能的世界

我们仍在等待 OpenAI 发布其 GPT-4o 语音助手，但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。

我们仍在等待 OpenAI 发布其 GPT-4o 语音助手，但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。

Moshi 是一款实时语音 AI 助手，由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。然后对 Moshi 进行合成对话微调，教它如何互动。

Moshi 可以理解和表达 70 种不同的情绪，并以各种风格和口音说话。其 200 毫秒端到端延迟的演示非常令人印象深刻。通过同时聆听、思考和说话，实时互动是无缝的，没有尴尬的停顿。

听起来可能不像 GPT-4o 的 Sky 那样撩人，OpenAI 表示后者并不是在模仿斯嘉丽·约翰逊，但 Moshi 的响应速度更快，而且是公开可用的。

不是在模仿斯嘉丽·约翰逊

Moshi 的声音是通过一位配音演员 Kyutai 制作的音频样本进行训练而获得的，Kyutai 被称为“爱丽丝”，但没有提供更多细节。

Moshi 打断和回应的方式让人难以察觉的停顿让与 AI 模型的互动感觉非常自然。

以下是 Moshi 加入科幻角色扮演的一个例子。

Helium 7B 比 GPT-4o 小得多，但它的小尺寸意味着你可以在消费级硬件上或使用低功耗 GPU 在云端运行它。

在演示过程中，Kyutai 工程师使用 MacBook Pro 展示了 Moshi 如何在设备上运行。

虽然有点小故障，但这是一个有希望的迹象，表明我们很快就会在手机或电脑上运行低延迟的 AI 语音助手，而无需将我们的私人数据发送到云端。

如果您想与 Moshi 聊天，可以在这里尝试：https://kyutai.org/

https://kyutai.org/

重要的是要记住，Moshi 是一个实验原型，它是由 8 名工程师组成的团队在短短 6 个月内创建的。

4o Kyutai 助手语音停顿 OpenAI 合成使用提供演示说话互动 Helium 进行 AI GPT 运行 Moshi 没有

Kyutai 的 AI 语音助手抢先公开发布

其他外部链接

Tags

XiaoMi-AI