详细内容或原文请订阅后点击阅览
本地耳语音频转录
了解如何使用 Faster‑Whisper 和 Python 在本地擦除音频,重点是隐私优先和 CPU/GPU 就绪。
来源:KDnuggets简介
将音频转录为文本是开发人员的常见需求,无论您是构建语音转文本应用程序、分析会议录音还是向视频添加字幕。在本地(在您自己的计算机上)执行此操作可以保护隐私并避免重复出现的云成本。
在本文中,您将学习如何使用 Whisper 及其名为 Faster-Whisper 的优化版本来设置快速的本地转录系统。我们将介绍音频预处理(例如将 MP3 转换为 WAV)、编写 Python 脚本,并讨论在 CPU 和 GPU 上运行。
什么是耳语?为什么要使用本地变体?
OpenAI 的 Whisper 是一种自动语音识别 (ASR) 模型。它经过大量多语言音频的训练,即使在背景噪音或不同口音的情况下也能表现良好。
但是,原始 Whisper 在 CPU 上可能会很慢,并且会占用大量内存。这就是优化变体可以提供帮助的地方。
两个变体都 100% 在本地运行;没有数据离开您的计算机。
设置您的环境(跨平台)
此设置适用于 Windows、macOS 和使用 Python 3.8 或更高版本的 Linux。创建并激活虚拟环境(可选但推荐):
python -m venv Whisper_env
在 macOS 和 Linux 上激活虚拟环境:
源 Whisper_env/bin/activate
在 Windows 上:
耳语_env\Scripts\activate
安装 Faster-Whisper:
pip install fast-whisper
安装音频预处理工具
Whisper 需要 16 kHz 单声道 WAV 格式的音频。要转换常见格式(MP3、M4A、OGG 等),我们需要 FFmpeg 和 Python 库 pydub。
安装 FFmpeg:
然后安装pydub:
