由语言模型提供支持的文本到语音(TTS)的最新进步已在实现自然性和零发音克隆方面表现出了显着的功能。值得注意的是,仅解码器的变压器是该域中的突出体系结构。然而,变形金刚面临着依赖于二次复杂性的挑战,在冗长的序列和资源约束的硬件上阻碍了训练。此外,对于TTS比对的单调性质,它们缺乏特定的感应偏见。作为回应,我们建议用重复的架构替换变压器,并引入专门的交叉注意机制,以减少重复和跳过问题。因此,我们的体系结构可以在长样本上有效训练,并实现最先进的零镜头语音克隆,以相对于可比大小的基线。我们的实现和演示可在https:// github.com/theodorblackbird/lina-speech上找到。索引术语:语音综合,零射击自适应文本到语音,语言建模,线性注意1。简介
主要关键词