使用 Stream Vision Agents 和 Amazon Nova 2 Sonic 的实时语音代理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用 Stream Vision Agents 和 Amazon Nova 2 Sonic 的实时语音代理

2026年5月14日 17:23 33 Comments

In this post, you learn how to combine Stream's Vision Agents open-source framework with Amazon Bedrock and Amazon Nova 2 Sonic to build real-time voice agents that can be production-ready in minutes. You'll learn how the integration works under the hood, walk through code examples, and explore advanced capabilities like function calling, automatic reconnection, and multilingual voice support.

来源:亚马逊云科技 _机器学习

这篇文章是与 Stream 技术营销负责人 Neevash Ramdial 共同撰写的

构建感觉自然且响应灵敏的生产级语音代理是一项复杂的工程挑战。您必须编排语音到语音模型、管理低延迟音频流并处理连接生命周期。您还需要跨 Web、移动和桌面应用程序提供一致的体验。

在本文中，您将了解如何将 Stream 的 Vision Agents 开源框架与 Amazon Bedrock 和 Amazon Nova 2 Sonic 结合起来，构建可在几分钟内投入生产的实时语音代理。您将了解集成的幕后工作原理，浏览代码示例，并探索函数调用、自动重新连接和多语言语音支持等高级功能。

挑战

解决方案概述

该解决方案汇集了三个关键组件：

Amazon Nova 2 Sonic 是通过 Amazon Bedrock 提供的语音到语音基础模型，提供实时双向音频流、本机转弯检测和函数调用功能。 Nova 2 Sonic 处理完整的语音到语音管道，接受音频输入并产生音频输出。这避免了单独的 STT 和 TTS 服务的需要。

Stream 的边缘网络是一种全球分布式边缘网络，通常可提供低于 500 毫秒的加入时间和 30 毫秒以下的音频延迟，从而在客户端和代理后端之间提供实时传输层。

这些组件共同创建了一个完整的堆栈：Stream 处理实时媒体传输和客户端体验，Amazon Nova 2 Sonic 提供 AI 智能，Vision Agents 提供将它们连接在一起的粘合代码。

架构概述

帐户边界

客户 AWS 账户

业务逻辑和编排（代理策略、工具、数据访问）。

Amazon Bedrock 集成以访问 Amazon Nova 模型。

流 AWS 账户

全局 WebRTC/SFU 媒体平面、TURN/STUN 和信令。

端到端媒体流

区域 SFU 终止

负责人音频复杂的 Bedrock 处理灵敏的提供实时传输模型概述输入 Nova 音频输出单独的一致的媒体连接语音 Stream 集成的服务的编排高级功能应用程序生命周期代理传输层端到端工作原理 Amazon Sonic 完整的音频输入函数调用生产的分布式以下的解决方案