详细内容或原文请订阅后点击阅览
语音主张的歧视性撤销语音搜索错误校正
端到端(E2E)自动语音识别(ASR)模型是使用配对的音频文本样本训练的,这些样品的获取昂贵,因为高质量的地面图数据需要人体注释。语音搜索应用程序(例如数字媒体播放器)利用ASR允许用户通过语音搜索而不是屏幕键盘。但是,在E2E ASR系统的训练数据中可能没有足够的代表或不足的电影标题,因此可能会受到较差的认可。在本文中,我们提出了一个语音校正系统,该系统由(a)基于…
来源:Apple机器学习研究端到端(E2E)自动语音识别(ASR)模型是使用配对的音频文本样本训练的,这些样品的获取昂贵,因为高质量的地面图数据需要人体注释。语音搜索应用程序(例如数字媒体播放器)利用ASR允许用户通过语音搜索而不是屏幕键盘。但是,在E2E ASR系统的培训数据中,最近或不经常的电影标题可能没有足够的代表,因此可能会受到良好的认可。
在本文中,我们提出了一个语音校正系统,该系统由(a)基于ASR模型的输出的语音搜索组成,该输出生成了E2E系统可能不考虑的语音替代方案,以及(b)将ASR模型识别和语音替代方案组合的调试器组件,并选择最终系统输出。
我们发现,我们的方法在一系列竞争基准的基准上提高了在流行电影标题的基准上的4.4%至7.6%之间的单词错误率。
- **在Apple†Meta