语音处理研究通常集中于“细微部分”,即“独特特征”、“音素”或“音素”如何构成语音识别和生成过程中必须识别和解码的元素(图 1a、b)。这种方法非常成功,构成了我们从声学、心理学、语言学和神经科学 1-3 以及最近的工程学角度理解语音的基础,自动语音识别系统在工程学中取得了显著成绩。构成元素(通俗地说,即“单词”的组成部分)在感知和生成以及词汇处理中的重要作用受到广泛重视和研究 4、5。在一项相对独立的研究中,人们开始强调语音的另一种属性——较慢的信号调制更具有“中间比特”或块的特征,即音节(图 1c)。与对基本声学语音特征的考虑(图 1b)相比,这种“语音的中尺度”受到的关注较少(图 1c)。最近令人惊讶的发现之一是,在这个时间尺度上量化的语音具有高度规律性的时间结构,这一属性很可能是大脑回路的组织和言语运动系统的生物力学的结果 6、7。识别系统也利用了这种时间、节奏的规律性。现在有越来越多的研究(从心理物理学到生理学到建模)建立在
主要关键词