Kyutai’s AI voice assistant beats OpenAI to public release
我们仍在等待 OpenAI 发布其 GPT-4o 语音助手,但法国一家非营利性 AI 研究实验室抢先发布了 Moshi。Moshi 是一款实时语音 AI 助手,由 Kyutai 开发并使用合成文本和音频数据混合进行训练的 Helium 7B 模型提供支持。然后对 Moshi 进行合成对话微调,以教它如何互动。Moshi 可以理解和表达 70 种不同的情绪,并以各种风格和口音说话。其 200 毫秒端到端延迟的演示非常令人印象深刻。通过同时聆听、思考和说话,Kyutai 的 AI 语音助手在公开发布方面击败 OpenAI 的帖子首先出现在 DailyAI 上。