使用 Stream Vision Agents 和 Amazon Nova 2 Sonic 的实时语音代理

In this post, you learn how to combine Stream's Vision Agents open-source framework with Amazon Bedrock and Amazon Nova 2 Sonic to build real-time voice agents that can be production-ready in minutes. You'll learn how the integration works under the hood, walk through code examples, and explore advanced capabilities like function calling, automatic reconnection, and multilingual voice support.

来源:亚马逊云科技 _机器学习

这篇文章是与 Stream 技术营销负责人 Neevash Ramdial 共同撰写的

构建感觉自然且响应灵敏的生产级语音代理是一项复杂的工程挑战。您必须编排语音到语音模型、管理低延迟音频流并处理连接生命周期。您还需要跨 Web、移动和桌面应用程序提供一致的体验。

在本文中,您将了解如何将 Stream 的 Vision Agents 开源框架与 Amazon Bedrock 和 Amazon Nova 2 Sonic 结合起来,构建可在几分钟内投入生产的实时语音代理。您将了解集成的幕后工作原理,浏览代码示例,并探索函数调用、自动重新连接和多语言语音支持等高级功能。

挑战

解决方案概述

该解决方案汇集了三个关键组件:

  • Amazon Nova 2 Sonic 是通过 Amazon Bedrock 提供的语音到语音基础模型,提供实时双向音频流、本机转弯检测和函数调用功能。 Nova 2 Sonic 处理完整的语音到语音管道,接受音频输入并产生音频输出。这避免了单独的 STT 和 TTS 服务的需要。
  • Stream 的边缘网络是一种全球分布式边缘网络,通常可提供低于 500 毫秒的加入时间和 30 毫秒以下的音频延迟,从而在客户端和代理后端之间提供实时传输层。
  • 这些组件共同创建了一个完整的堆栈:Stream 处理实时媒体传输和客户端体验,Amazon Nova 2 Sonic 提供 AI 智能,Vision Agents 提供将它们连接在一起的粘合代码。

    架构概述

    帐户边界

  • 客户 AWS 账户
  • 业务逻辑和编排(代理策略、工具、数据访问)。
  • Amazon Bedrock 集成以访问 Amazon Nova 模型。
  • 流 AWS 账户
  • 全局 WebRTC/SFU 媒体平面、TURN/STUN 和信令。
  • 端到端媒体流

  • 区域 SFU 终止