什么是音频/语音注释(示例)

我们都问过 Alexa(或其他语音助手)一些开放式问题。Alexa,最近的披萨店开门了吗?Alexa,我所在位置的哪家餐厅可以免费送货上门?或者类似的东西。作为人类,我们用开放式问题相互交谈,但向虚拟助手提出这样一个口语化的问题并不 [...]

来源:Shaip 博客

我们都问过 Alexa(或其他语音助手)一些开放式问题。

Alexa,最近的披萨店开门了吗?

Alexa,我所在位置的哪家餐厅提供免费送货上门服务?

或者类似的东西。

作为人类,我们用开放式问题相互交谈,但向虚拟助手提出这样一个口语化的问题听起来并不明智。

虚拟助手

然而,Alexa 每次都能给出正确的答案。 怎么做到的? 在我们的例子中,人工智能必须处理位置,理解披萨店实际上不是一个地方(比如城市),然后给出一个准确的答案。

得益于音频注释(数据标记的一个子集),机器学习系统可以识别这些问题并检索正确的信息。 那么,音频注释到底是什么?为什么需要它?

什么是音频注释?

什么是音频注释?

音频注释涉及以机器可理解的格式对音频组件进行分类。音频注释不同于音频转录,音频转录将口语转换为书面形式。

音频注释 音频转录

在音频注释中,还提供了有关音频文件的其他重要信息 - 例如语义、形态、语音和话语数据。音频注释可能还包括有关整个音频文件的元数据,而不是描述单个注释。

为什么需要音频注释?

为什么需要音频注释?

预计 2025 年 NLP 市场规模将比 2017 年增长 14 倍。2017 年 NLP 的全球市场价值为 30 亿美元,预计到 2025 年这一数字将大幅增长至 430 亿美元。

增长 14 倍

数据收集和注释对于开发聊天机器人、语音识别系统和虚拟助手至关重要。此外,它们还需要开发 NLP 语音识别模型和训练机器学习算法。

数据收集和注释 语音识别 音频文件