摘要:本报告提出了计算机辅助语言学习 (CALL) 领域的最新研究成果。错误发音检测是计算机辅助发音训练 (CAPT) 系统的核心组件之一,而 CAPT 是 CALL 的一个子集。自动发音错误检测研究始于 20 世纪 90 年代,但由于计算能力的提高以及用于录制发音分析所需的语音的移动设备的普及,成熟的 CAPT 的开发在过去十年才得以加速。检测发音错误是一个很难解决的问题,因为没有正确和错误发音的正式定义。因此,通常会检测到韵律和音素错误,例如音素替换、插入和删除。此外,人们一致认为,学习发音应该注重说话者的清晰度,而不是听起来像 L1 英语说话者。最初,使用高斯混合模型-隐马尔可夫模型和深度神经网络-隐马尔可夫模型方法,基于后验似然(称为发音良好性)开发方法。与最近提出的基于 ASR 的端到端错误发音检测系统相比,这些系统实施起来很复杂。本研究的目的是使用连接主义时间分类 (CTC) 和基于注意的序列解码器创建端到端 (E2E) 模型。最近,E2E 模型在错误发音检测准确性方面显示出显着的提高。本研究将对基线模型 CNN-RNN-CTC、具有基于字符序列的注意解码器的 CNN-RNN-CTC 以及具有基于音素的解码器系统的 CNN-RNN-CTC 进行比较。这项研究将帮助我们决定一种更好的方法来开发一个有效的发音错误检测系统。关键词:CNN-RNN-CTC、语音处理、发音错误检测 简介:建立人与机器[Baranwal et al, ]或人与人或机器与机器[singh et al, 2020, singh et al, 2019]手势[Baranwal et al, 2017, Singh et al, 2018]、语音、面部表情[singh et al, 2018]等之间的通信。是重要的沟通媒介,其中语音(Baranwal et al, 2014, Baranwal et al, 2014)是人类交流最自然的形式。随着全球化的发展,外语学习市场大幅增长,其中之一就是英语发音学习。发音教学本质上是学生和老师之间的一对一互动,这对许多学生来说是难以承受的。因此,自动发音教学已成为一个热门的研究领域。自动识别发音错误和测量发音的研究工作始于 20 世纪 90 年代,从 90 年代末到 21 世纪初发生了一系列事件。2000 年初 CAPT 的商业化被证明存在问题,因此开发活动放缓。大约十三年前,随着计算能力的提高、智能化,人们的兴趣再次开始
主要关键词