详细内容或原文请订阅后点击阅览
Kyutai 的 AI 语音助手抢先公开发布
我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。Moshi 是一款实时语音 AI 助手,由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。然后对 Moshi 进行合成对话微调,以教它如何互动。Moshi 可以理解和表达 70 种不同的情绪,并以各种风格和口音说话。其 200 毫秒端到端延迟的演示非常令人印象深刻。通过同时聆听、思考和说话,Kyutai 的 AI 语音助手在公开发布方面击败 OpenAI 的帖子首先出现在 DailyAI 上。
来源:DailyAI | 探索人工智能的世界我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。
我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。Moshi 是一款实时语音 AI 助手,由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。 然后对 Moshi 进行合成对话微调,教它如何互动。
Moshi 可以理解和表达 70 种不同的情绪,并以各种风格和口音说话。 其 200 毫秒端到端延迟的演示非常令人印象深刻。 通过同时聆听、思考和说话,实时互动是无缝的,没有尴尬的停顿。
听起来可能不像 GPT-4o 的 Sky 那样撩人,OpenAI 表示后者并不是在模仿斯嘉丽·约翰逊,但 Moshi 的响应速度更快,而且是公开可用的。
不是在模仿斯嘉丽·约翰逊Moshi 的声音是通过一位配音演员 Kyutai 制作的音频样本进行训练而获得的,Kyutai 被称为“爱丽丝”,但没有提供更多细节。
Moshi 打断和回应的方式让人难以察觉的停顿让与 AI 模型的互动感觉非常自然。
以下是 Moshi 加入科幻角色扮演的一个例子。
Helium 7B 比 GPT-4o 小得多,但它的小尺寸意味着你可以在消费级硬件上或使用低功耗 GPU 在云端运行它。
在演示过程中,Kyutai 工程师使用 MacBook Pro 展示了 Moshi 如何在设备上运行。
虽然有点小故障,但这是一个有希望的迹象,表明我们很快就会在手机或电脑上运行低延迟的 AI 语音助手,而无需将我们的私人数据发送到云端。
如果您想与 Moshi 聊天,可以在这里尝试:https://kyutai.org/
https://kyutai.org/重要的是要记住,Moshi 是一个实验原型,它是由 8 名工程师组成的团队在短短 6 个月内创建的。