抽象虽然端到端(E2E)具有基于HIFI-GAN的神经声码器(例如vits and jets)可以以快速推理速度实现类似人类的语音质量,这些模型仍然有空间可以通过CPU使用CPU来进一步提高推理速度,因为基于HIFI-GAN的神经声码器单元是一种瓶颈。此外,HIFI-GAN不仅被广泛用于TT,而且用于许多语音和音频应用。在维持合成质量的同时,已经提出了多式(MS)-HIFI-GAN,ISTFTNET和MS-ISTFT-HIFI-GAN。尽管在ISTFTNET和MS-ISTFT-HIFI-GAN中引入了基于短期的傅立叶变换(ISTFT)的快速上取样,但我们首先发现ISTFT层的预测中间特征输入与原始STFT层完全不同,这是由于ISTFT中的重叠式dancy dancy dancy造成的。为了进一步提高合成质量和推理速度,我们提出了FC-HIFI-GAN和MS-FC-HIFI-GAN,通过引入可训练的完全连接(FC)的基于基于重叠的ADD操作而不是ISTFT层的可训练的完全连接(FC)层的快速上采样。对于看不见的说话者合成和E2E TTS条件的实验结果表明,所提出的方法可以稍微加速推理速度,并显着提高基于JETS的E2E TTS的合成质量,而不是ISTFTNET和MS-ISTFTNET和MS-ISTFTNET和MS-ISTFTNET。因此,ISTFT层可以用基于HIFI-GAN基于HIFI-GAN的神经声码编码器中的基于重叠的ADD操作的提议的可训练FC层的上采样代替。
主要关键词