最近,端到端语音综合中已采用神经声码器将中间光谱表示转换为相应的语音波形。在本文中,提出了两个基于生成的对抗性网络(GAN)的声码器,平行的Wavegan和Hifi-GAN,用于缅甸终端语音综合和主观评估,以比较模型的绩效。主观评估结果表明,在小型缅甸语音数据集中训练的两个模型都以快速的推理速度实现了高保真性语音综合,表明了对未见扬声器的旋光磁化倒置的能力。具体来说,在端到端的语音合成中,tacotron2与Hifi-Gan Vocoder的Tacotron2达到了最先进的性能,从而获得了4.37的缅甸语言意见分数(MOS)。
一些具有基本频率(F 0)控制的神经声码器已成功地对单个CPU进行实时推断,同时保留了合成语音的质量。但是,与基于信号处理的旧声音编码器相比,它们的推理速度仍然很低。本文提出了一个基于源滤波器模型的神经声码器,具有可训练的时间变化的有限冲动响应(FIR)过滤器,以达到与传统声音编码器相似的推理速度。在拟议的模型中,使用神经网络预测了FIRNET,多个FIR系数,然后通过将混合的激发信号与这些FIR系数进行卷积,从而生成语音波形。实验结果表明,Firenet可以达到类似于传统声音编码器的推理速度,同时保持F 0可控性和自然语音质量。
我们是否将数字放入数字语音中?数字语音越来越受欢迎,我认为我们应该仔细研究一下它的工作原理。因此,这次我们将转向技术方面,学习很多(双关语)关于将人类语音编码为数字数据流的知识,这一过程称为语音编码或声码。一开始,有一个声音。我们使用代表该声音的电子波形首先改变无线电信号的幅度,然后改变频率、相位和其他特性,作为在没有电线负担的情况下将该声音传输到很远距离的手段。无线电语音通信的出现是我们文化科学觉醒的主要驱动力,是 19 世纪中叶开始的技术革命的锦上添花。然而,尽管建设和维护有线网络及其相关设备的费用巨大,无线电仍无法取代(甚至无法在经济上与电话竞争)。美国贝尔公司可以添加更多双绞线,或将数千个语音信号多路复用到一条电缆上,但无线电频谱本质上是一种有限的资源。这与数字语音有什么关系?简而言之,就是频谱 - 或者更准确地说,更有效地使用它。电话公司仍然必须通过其系统提供大约 3 kHz 的幅度和相位控制通带,并且不太关心频谱,因为它不限于仅使用一次。电话公司只需添加另一条电线,