提示耳语以改进逐字记录和端到端的错误检测

*相同的贡献识别错误(即,在大声朗读时犯的错误)通常是通过将自动语音识别(ASR)转录与目标阅读文本进行比较而大声接触的。但是,当ASR不准确转录逐字化的语音时,事后方法的性能很差。为了改善当前阅读错误注释的方法,我们提出了一种新颖的端到端体系结构,该结构通过提示结合了目标阅读文本,并接受了改进的逐字记录和直接的错误检测。我们的贡献包括:首先证明…

来源:Apple机器学习研究

*平等贡献者

通过将自动语音识别(ASR)转录与目标阅读文本进行比较后,通常会在事后大声了解时识别错误(即失误)。 但是,当ASR不准确转录逐字化的语音时,事后方法的性能很差。为了改善当前阅读错误注释的方法,我们提出了一种新颖的端到端体系结构,该结构通过提示结合了目标阅读文本,并接受了改进的逐字记录和直接的错误检测。我们的贡献包括:首先,证明通过提示逐字化的益处性能与微调相结合,其次,这表明它可以增加端到端错误检测的语音识别任务是可行的。我们进行了两项案例研究---儿童阅读和成人非典型语音 - 发现我们提出的策略可以改善逐字记录和与当前的最新策略相比。