语音识别是计算语言学的一个重要领域[CRS05、CFL13]。多年来,研究人员已经开发出各种技术和工具来识别口语中的单词和短语[JM14、BMG∗16、HM15a]。最近,人工智能技术,特别是深度学习网络,已经具有革命性,因为它们超越了以前的方法,并且在语音转文本的结果中带来了高质量和低错误率[HDY∗12、MLJ∗14]。许多大公司已经使用深度学习模型提供基于云的语音转文本服务,例如微软[Mic]、谷歌[Goo19]等。来自多个领域的用户都渴望将这些人工智能工具用于实际应用,如进行实地调查和收集用户意见 [BZK12、HM15b、Muh15]。然而,转录结果仍然存在一系列实际问题,包括:(1)完整的语音被识别为一组片段,这些片段通常不能代表说话者的自然句子或段落;(2)音频识别错误不可避免,且质量差异很大;(3)语音识别算法给出的单词和片段的置信度得分有时不能反映出真实的误识别概率。这些问题已经阻碍了语音转文本工具的更广泛使用 [KRS17]。领域科学家在收集来自多个说话者的长音频时面临着有效完成以下任务的挑战:
主要关键词