使用Openai Whisper进行自动转录 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用Openai Whisper进行自动转录

2025年6月26日 00:34 33 Comments

使用Openai的耳语模型简化计算机交互作用。邮政使用Openai Whisper进行自动转录，首先是迈向数据科学的。

来源:走向数据科学

最近使用大型语言模型（LLM）开发。很多重点是您可以使用纯文本模型或视觉语言模型（VLMS）进行的提问，您还可以在其中输入图像。

但是，在过去的几年中，还有另一个维度已经发展了很多：音频。可以转录（语音 - >文本），语音综合（文本 - >语音）以及语音到语音的模型，您与语言模型进行了完整的对话，音频都会进出。

Openai的耳语模型的街道和培训管道。带有MIT许可证的Openai Whisper Github存储库中的图像。 OpenAi Whisper Github存储库

在本文中，我将讨论如何利用音频模型空间内的开发，以使其成为更有效的程序员。

这是我使用转录工具的示例视频。我首先选择光标中的提示字段，然后使用我的热键激活麦克风，麦克风由左上方的橙色图标指示。然后，我说出要抄录的句子，它很快出现在提示窗口中，而无需在键盘上输入。这是将长英语提示输入编辑器的更有效的方法。作者的视频。光标

我写这篇文章的主要动机是，我一直在寻找成为更有效程序员的方法。使用ChatGpt移动应用程序一段时间后，我发现了他们的转录选项（用户输入字段中的右侧麦克风图标）。我使用了转录，并迅速意识到与以前使用过的其他人相比，这种转录的比较好得多，例如Apple的内置iPhone转录。

Openai的转录几乎总是捕捉到我所有的话，很少有错误。即使我使用较少常见的单词，例如与计算机科学相关的首字母缩写词，它仍然能够拿起我的意思。

OpenAi的Chatgpt MacWhisper

Alfred

许可证音频语音计算机 Github 编辑器应用程序使用转录相关的语言所有的先决条件模型 Whisper 过去的有效的工具的输入 Openai 文本模型的麦克风视频一段时间程序员完整的提示输入图像用户输入用过的