详细内容或原文请订阅后点击阅览
一个改善生成语言模型自然性的变异框架
大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义令牌)的语音令牌通常集中在语言方面,但忽略了韵律信息。结果,对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是,单独的音高不能完全代表范围…
来源:Apple机器学习研究大型语言模型在文本处理中的成功激发了他们对语音建模的适应。但是,由于语音是连续且复杂的,因此通常将其离散为自回归建模。源自自我监督模型(称为语义令牌)的语音令牌通常集中在语言方面,但忽略了韵律信息。结果,对这些代币进行训练的模型可以产生自然性降低的语音。现有方法试图通过在语义令牌中添加音调功能来解决此问题。但是,单独音调不能完全代表副语言属性的范围,并且选择正确的功能需要仔细的手工设计。为了克服这一点,我们提出了一种端到端的变分方法,该方法自动学习编码这些连续的语音属性以增强语义令牌。我们的方法消除了对手动提取和选择副语言特征的需求。此外,根据人类评估者,它产生了首选的语音连续性。
- †卡内基·梅隆大学