在 Amazon SageMaker AI 上托管 NVIDIA 语音 NIM 模型:Parakeet ASR

在这篇文章中,我们将探讨如何使用异步推理端点在 Amazon SageMaker AI 上部署 NVIDIA 的 Parakeet ASR 模型,以创建可扩展、经济高效的管道来处理大量音频数据。该解决方案将最先进的语音识别功能与 Lambda、S3 和 Bedrock 等 AWS 托管服务相结合,自动转录音频文件并生成智能摘要,使组织能够从客户通话、会议录音和其他大规模音频内容中获取有价值的见解。

来源:亚马逊云科技 _机器学习
本文是与 NVIDIA 合作撰写的,作者衷心感谢 Adi Margolin、Eliuth Triana 和 Maryam Motamedi 的合作。当今的组织面临着处理大量音频数据(从客户呼叫和会议录音到播客和语音消息)以释放有价值的见解的挑战。自动语音识别 (ASR) 是此过程中关键的第一步,它将语音转换为文本,以便进行进一步分析。然而,大规模运行 ASR 需要大量计算,而且成本高昂。这就是 Amazon SageMaker AI 上的异步推理的用武之地。通过在具有异步端点的 SageMaker AI 上部署最先进的 ASR 模型(如 NVIDIA Parakeet 模型),您可以高效处理大型音频文件和批处理工作负载。通过异步推理,可以在后台处理长时间运行的请求(稍后交付结果);它还支持在没有工作时自动缩放到零,并在不阻塞其他工作的情况下处理需求高峰。在这篇博文中,我们将探讨如何在 SageMaker AI 上托管 NVIDIA Parakeet ASR 模型,并将其集成到异步管道中以进行可扩展的音频处理。我们还将重点介绍 Parakeet 架构和 NVIDIA Riva 语音 AI 工具包的优势,并讨论如何使用 NVIDIA NIM 在 AWS 上进行部署。NVIDIA 语音 AI 技术:Parakeet ASR 和 Riva 框架NVIDIA 提供一整套语音 AI 技术,将高性能模型与高效部署解决方案相结合。从本质上讲,Parakeet ASR 模型系列代表了最先进的语音识别功能,实现了行业领先的准确性和低字错误率 (WER)。该模型的架构使用 Fast Conformer 编码器和 CTC 或传感器解码器,处理速度比标准 Conformer 快 2.4 倍,同时保持准确性。NVIDIA 语音 NIM 是用于构建客户的 GPU 加速微服务的集合