详细内容或原文请订阅后点击阅览
ChipChat:MLX 中的低延迟级联对话代理
大语言模型 (LLM) 的出现改变了口语对话系统,但实时设备语音代理的最佳架构仍然是一个悬而未决的问题。虽然端到端方法在理论上具有优势,但级联系统(CS)在语言理解任务中继续优于它们,尽管受到顺序处理延迟的限制。在这项工作中,我们介绍了 ChipChat,这是一种新颖的低延迟 CS,它通过架构创新和流优化克服了传统瓶颈。我们的系统集成了流式(a)会话语音......
来源:Apple机器学习研究大语言模型 (LLM) 的出现改变了口语对话系统,但实时设备语音代理的最佳架构仍然是一个悬而未决的问题。虽然端到端方法在理论上具有优势,但级联系统(CS)在语言理解任务中继续优于它们,尽管受到顺序处理延迟的限制。在这项工作中,我们介绍了 ChipChat,这是一种新颖的低延迟 CS,它通过架构创新和流优化克服了传统瓶颈。我们的系统集成了流式传输 (a) 会话语音识别与专家混合、(b) 状态动作增强法学硕士、(c) 文本到语音合成、(d) 神经声码器和 (e) 说话人建模。 ChipChat 使用 MLX 实现,无需专用 GPU,即可在 Mac Studio 上实现亚秒级响应延迟,同时通过完整的设备上处理保护用户隐私。我们的工作表明,战略性地重新设计的 CS 可以克服其历史延迟限制,为实用的基于语音的 AI 代理提供了一条有希望的前进道路。
