什么是音频/语音注释（示例） XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

什么是音频/语音注释（示例）

2022年5月24日 04:40 33 Comments

我们都问过 Alexa（或其他语音助手）一些开放式问题。Alexa，最近的披萨店开门了吗？Alexa，我所在位置的哪家餐厅可以免费送货上门？或者类似的东西。作为人类，我们用开放式问题相互交谈，但向虚拟助手提出这样一个口语化的问题并不 [...]

来源:Shaip 博客

我们都问过 Alexa（或其他语音助手）一些开放式问题。

Alexa，最近的披萨店开门了吗？

Alexa，我所在位置的哪家餐厅提供免费送货上门服务？

或者类似的东西。

作为人类，我们用开放式问题相互交谈，但向虚拟助手提出这样一个口语化的问题听起来并不明智。

虚拟助手

然而，Alexa 每次都能给出正确的答案。怎么做到的？在我们的例子中，人工智能必须处理位置，理解披萨店实际上不是一个地方（比如城市），然后给出一个准确的答案。

得益于音频注释（数据标记的一个子集），机器学习系统可以识别这些问题并检索正确的信息。那么，音频注释到底是什么？为什么需要它？

什么是音频注释？

音频注释涉及以机器可理解的格式对音频组件进行分类。音频注释不同于音频转录，音频转录将口语转换为书面形式。

音频注释 音频转录

在音频注释中，还提供了有关音频文件的其他重要信息 - 例如语义、形态、语音和话语数据。音频注释可能还包括有关整个音频文件的元数据，而不是描述单个注释。

为什么需要音频注释？

预计 2025 年 NLP 市场规模将比 2017 年增长 14 倍。2017 年 NLP 的全球市场价值为 30 亿美元，预计到 2025 年这一数字将大幅增长至 430 亿美元。

增长 14 倍

数据收集和注释对于开发聊天机器人、语音识别系统和虚拟助手至关重要。此外，它们还需要开发 NLP 语音识别模型和训练机器学习算法。

数据收集和注释 语音识别 音频文件

注释虚拟助手问题音频 NLP 语音识别转录提供音频文件 Alexa 披萨数据市场