dmel:语音令牌化变得简单

大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。拥有多种令牌类型也使体系结构复杂化,并且需要……

来源:Apple机器学习研究

大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。具有多种令牌类型也使体系结构复杂化,需要额外的预处理。在这里,我们表明将MEL滤波器通道转化为离散强度箱会产生一个简单的表示(DMEL),该表示的性能比其他现有的语音令牌化方法更好。使用LM风格的变压器体系结构进行语音文本建模,我们全面评估了语音识别(ASR)和语音合成(TTS)的不同语音令牌化方法。我们的结果表明,DMEL在统一框架内在这两个任务上实现高性能的有效性,为语音和文本的有效和有效的联合建模铺平了道路。

图1。DMEL令牌化和贬损过程。
图1。DMEL令牌化和贬损过程。
图2。我们的语音重建实验比较了在三种音频条件下的各种令牌化方法:简洁的语音,带有音乐背景噪音的语音以及带有重叠的扬声器的语音。结果表明,DMEL的重建性能在单词错误率(WER)方面与地面真相音频质量相匹配。此外,尽管引入音乐或语音噪音时,所有其他令牌化方法都失败了,但DMEL保持其性能。