详细内容或原文请订阅后点击阅览
dmel:语音令牌化变得简单
大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。拥有多种令牌类型也使体系结构复杂化,并且需要……
来源:Apple机器学习研究大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。具有多种令牌类型也使体系结构复杂化,需要额外的预处理。在这里,我们表明将MEL滤波器通道转化为离散强度箱会产生一个简单的表示(DMEL),该表示的性能比其他现有的语音令牌化方法更好。使用LM风格的变压器体系结构进行语音文本建模,我们全面评估了语音识别(ASR)和语音合成(TTS)的不同语音令牌化方法。我们的结果表明,DMEL在统一框架内在这两个任务上实现高性能的有效性,为语音和文本的有效和有效的联合建模铺平了道路。