本地耳语音频转录

了解如何使用 Faster‑Whisper 和 Python 在本地擦除音频,重点是隐私优先和 CPU/GPU 就绪。

来源:KDnuggets

简介

将音频转录为文本是开发人员的常见需求,无论您是构建语音转文本应用程序、分析会议录音还是向视频添加字幕。在本地(在您自己的计算机上)执行此操作可以保护隐私并避免重复出现的云成本。

在本文中,您将学习如何使用 Whisper 及其名为 Faster-Whisper 的优化版本来设置快速的本地转录系统。我们将介绍音频预处理(例如将 MP3 转换为 WAV)、编写 Python 脚本,并讨论在 CPU 和 GPU 上运行。

什么是耳语?为什么要使用本地变体?

OpenAI 的 Whisper 是一种自动语音识别 (ASR) 模型。它经过大量多语言音频的训练,即使在背景噪音或不同口音的情况下也能表现良好。

但是,原始 Whisper 在 CPU 上可能会很慢,并且会占用大量内存。这就是优化变体可以提供帮助的地方。

  • Whisper.cpp 用 C++ 编写,没有严重的依赖性。它在 CPU 上速度非常快,但需要编译并且对 Python 不太友好。
  • Faster-Whisper 是使用 CTranslate2 的重新实现。它的运行速度比原来的 Whisper 快 4 倍,使用更少的 RAM,并且可以与 Python 无缝协作。我们将在本教程中使用 Faster-Whisper。
  • 两个变体都 100% 在本地运行;没有数据离开您的计算机。

    设置您的环境(跨平台)

    此设置适用于 Windows、macOS 和使用 Python 3.8 或更高版本的 Linux。创建并激活虚拟环境(可选但推荐):

    python -m venv Whisper_env

    在 macOS 和 Linux 上激活虚拟环境:

    源 Whisper_env/bin/activate

    在 Windows 上:

    耳语_env\Scripts\activate

    安装 Faster-Whisper:

    pip install fast-whisper

    安装音频预处理工具

    Whisper 需要 16 kHz 单声道 WAV 格式的音频。要转换常见格式(MP3、M4A、OGG 等),我们需要 FFmpeg 和 Python 库 pydub。

    安装 FFmpeg:

  • 在 Windows 上,从 FFmpeg.org 下载并添加到 PATH,或使用 winget install ffmpeg。
  • macOS:brew 安装 ffmpeg
  • 然后安装pydub: