使用Openai Whisper进行自动转录

使用Openai的耳语模型简化计算机交互作用。邮政使用Openai Whisper进行自动转录,首先是迈向数据科学的。

来源:走向数据科学

最近使用大型语言模型(LLM)开发。很多重点是您可以使用纯文本模型或视觉语言模型(VLMS)进行的提问,您还可以在其中输入图像。

但是,在过去的几年中,还有另一个维度已经发展了很多:音频。可以转录(语音 - >文本),语音综合(文本 - >语音)以及语音到语音的模型,您与语言模型进行了完整的对话,音频都会进出。

Openai的耳语模型的街道和培训管道。带有MIT许可证的Openai Whisper Github存储库中的图像。
OpenAi Whisper Github存储库

在本文中,我将讨论如何利用音频模型空间内的开发,以使其成为更有效的程序员。

这是我使用转录工具的示例视频。我首先选择光标中的提示字段,然后使用我的热键激活麦克风,麦克风由左上方的橙色图标指示。然后,我说出要抄录的句子,它很快出现在提示窗口中,而无需在键盘上输入。这是将长英语提示输入编辑器的更有效的方法。作者的视频。
光标

动机

我写这篇文章的主要动机是,我一直在寻找成为更有效程序员的方法。使用ChatGpt移动应用程序一段时间后,我发现了他们的转录选项(用户输入字段中的右侧麦克风图标)。我使用了转录,并迅速意识到与以前使用过的其他人相比,这种转录的比较好得多,例如Apple的内置iPhone转录。

Openai的转录几乎总是捕捉到我所有的话,很少有错误。即使我使用较少常见的单词,例如与计算机科学相关的首字母缩写词,它仍然能够拿起我的意思。

OpenAi的Chatgpt MacWhisper

先决条件

Alfred

ProS

cons