基于生成的对抗网络(GAN)的声音编码器在高质量和快速的推理速度方面已在语音合成中获得了极大的关注。但是,仍然存在许多明显的光谱伪像,导致综合语音的质量下降。在这项工作中,我们采用了一种基于Gan的新型Vocoder,专为少数文物和高保真效果而设计,称为Fagan。为了抑制高频组件中非理想的上取样层引起的混叠伪像,我们在发电机中引入了抗脱氧的双反卷积模块。为了减轻模糊的伪影并丰富了规格细节的重建,我们提出了一种新型的细粒度多分辨率真实和虚构的损失,以帮助对相信息进行建模。实验结果表明,FA-GAN的表现优于比较促进音频质量和减轻光谱伪像的方法,并且在应用于看不见的说话者场景时表现出卓越的性能。索引术语:语音综合,生成对抗网络,光谱伪像,频域