Loka 如何使用 Amazon Nova 2 Sonic 构建自然、低延迟的语音代理

在这篇文章中,我们演示了 Loka 用于解决常见问题的架构和方法:机器人、缓慢的语音助手会导致客户挂断电话,损害品牌声誉并增加支持成本。

来源:亚马逊云科技 _机器学习

Loka 通过使用 Amazon Nova 2 Sonic 构建对话式 AI 代理来改变客户语音交互,使客户能够享受自然、响应式的体验。他们基于 AWS 的解决方案在 Big Bench Audio 上实现了较高的语音推理准确性,同时比传统语音 AI 管道显着降低了成本并缩短了响应时间。在这篇文章中,我们展示了 Loka 用于解决常见问题的架构和方法:机器人、缓慢的语音助手会导致客户挂断电话,损害品牌声誉并增加支持成本。

传统语音助手为何存在不足

传统的语音助手遵循三个步骤的过程,这会产生根本问题。首先,他们使用语音转文本系统将您的语音转换为文本。接下来,他们通过大型语言模型 (LLM) 处理该文本。最后,他们使用文本转语音技术将文本响应转换回语音。该管道在每一步都会引入复合延迟。结果通常是在听到响应之前停顿 3 到 5 秒。这种延迟破坏了自然交谈的感觉。这会让打断或纠正助理感到笨拙和令人沮丧。

除了技术延迟之外,还存在经济问题。为数千个地点提供服务需要严格的成本控制。传统的实时语音系统在规模上可能会变得成本过高,特别是在处理连续音频流时。糟糕的体验和高昂的成本限制了语音人工智能的采用。企业需要更好的解决方案。

原生语音到语音模型

人工智能的最新进展开启了一种根本不同的方法。开发人员现在可以将音频流直接发送到语音到语音模型,该模型将理解、推理和生成作为一个统一的系统进行处理。通过端到端处理音频,这些模型可以捕获传统纯文本管道所遗漏的音调、情感和微妙线索。

设计对话式 AI 代理

响应