小型E:小语言模型具有线性注意的高效语音综合
机构名称:
¥ 1.0

由语言模型提供支持的文本到语音(TTS)的最新进步已在实现自然性和零发音克隆方面表现出了显着的功能。值得注意的是,仅解码器的变压器是该域中的突出体系结构。然而,变形金刚面临着依赖于二次复杂性的挑战,在冗长的序列和资源约束的硬件上阻碍了训练。此外,对于TTS比对的单调性质,它们缺乏特定的感应偏见。作为回应,我们建议用重复的架构替换变压器,并引入专门的交叉注意机制,以减少重复和跳过问题。因此,我们的体系结构可以在长样本上有效训练,并实现最先进的零镜头语音克隆,以相对于可比大小的基线。我们的实现和演示可在https:// github.com/theodorblackbird/lina-speech上找到。索引术语:语音综合,零射击自适应文本到语音,语言建模,线性注意1。简介

小型E:小语言模型具有线性注意的高效语音综合

小型E:小语言模型具有线性注意的高效语音综合PDF文件第1页

小型E:小语言模型具有线性注意的高效语音综合PDF文件第2页

小型E:小语言模型具有线性注意的高效语音综合PDF文件第3页

小型E:小语言模型具有线性注意的高效语音综合PDF文件第4页

小型E:小语言模型具有线性注意的高效语音综合PDF文件第5页

相关文件推荐

大语言模型
2025 年
¥8.0
大语言模型
2024 年
¥1.0
大语言模型
2025 年
¥1.0
赞美小语言模型
2024 年
¥1.0
使用大语言模型
2024 年
¥1.0
变压器语言模型
2024 年
¥15.0
使用大语言模型
2025 年
¥1.0
赞美小语言模型
2024 年
¥1.0
语音和语言处理
2025 年
¥59.0
使用大语言模型
2024 年
¥1.0
了解大语言模型
2024 年
¥10.0
使用大语言模型
2024 年
¥1.0
n-gram语言模型
2025 年
¥2.0
评估大语言模型
1900 年
¥4.0
语音和语言处理
2025 年
¥59.0