我们是否将数字放入数字语音中?数字语音越来越受欢迎,我认为我们应该仔细研究一下它的工作原理。因此,这次我们将转向技术方面,学习很多(双关语)关于将人类语音编码为数字数据流的知识,这一过程称为语音编码或声码。一开始,有一个声音。我们使用代表该声音的电子波形首先改变无线电信号的幅度,然后改变频率、相位和其他特性,作为在没有电线负担的情况下将该声音传输到很远距离的手段。无线电语音通信的出现是我们文化科学觉醒的主要驱动力,是 19 世纪中叶开始的技术革命的锦上添花。然而,尽管建设和维护有线网络及其相关设备的费用巨大,无线电仍无法取代(甚至无法在经济上与电话竞争)。美国贝尔公司可以添加更多双绞线,或将数千个语音信号多路复用到一条电缆上,但无线电频谱本质上是一种有限的资源。这与数字语音有什么关系?简而言之,就是频谱 - 或者更准确地说,更有效地使用它。电话公司仍然必须通过其系统提供大约 3 kHz 的幅度和相位控制通带,并且不太关心频谱,因为它不限于仅使用一次。电话公司只需添加另一条电线,
最近,端到端语音综合中已采用神经声码器将中间光谱表示转换为相应的语音波形。在本文中,提出了两个基于生成的对抗性网络(GAN)的声码器,平行的Wavegan和Hifi-GAN,用于缅甸终端语音综合和主观评估,以比较模型的绩效。主观评估结果表明,在小型缅甸语音数据集中训练的两个模型都以快速的推理速度实现了高保真性语音综合,表明了对未见扬声器的旋光磁化倒置的能力。具体来说,在端到端的语音合成中,tacotron2与Hifi-Gan Vocoder的Tacotron2达到了最先进的性能,从而获得了4.37的缅甸语言意见分数(MOS)。
NXDN ® 空中接口的一个关键元素是 AMBE+2™ 声码器,它可以数字化语音,同时保留自然语音的细微差别,执行降噪,引入 FEC 并压缩语音数据以适应陆地移动无线电频谱带宽和数据速率。接下来,无线电的数字信号处理器 (DSP) 协议将声码器、信令、控制和 FEC 数据打包在一起,将其转换为调制发射器的独特滤波 4 级 FSK 数字波形。这会产生低误码率 (BER) 数字空中接口,因此即使在信号强度较弱的区域,您也可以获得稳定的通信。
一些具有基本频率(F 0)控制的神经声码器已成功地对单个CPU进行实时推断,同时保留了合成语音的质量。但是,与基于信号处理的旧声音编码器相比,它们的推理速度仍然很低。本文提出了一个基于源滤波器模型的神经声码器,具有可训练的时间变化的有限冲动响应(FIR)过滤器,以达到与传统声音编码器相似的推理速度。在拟议的模型中,使用神经网络预测了FIRNET,多个FIR系数,然后通过将混合的激发信号与这些FIR系数进行卷积,从而生成语音波形。实验结果表明,Firenet可以达到类似于传统声音编码器的推理速度,同时保持F 0可控性和自然语音质量。
抽象虽然端到端(E2E)具有基于HIFI-GAN的神经声码器(例如vits and jets)可以以快速推理速度实现类似人类的语音质量,这些模型仍然有空间可以通过CPU使用CPU来进一步提高推理速度,因为基于HIFI-GAN的神经声码器单元是一种瓶颈。此外,HIFI-GAN不仅被广泛用于TT,而且用于许多语音和音频应用。在维持合成质量的同时,已经提出了多式(MS)-HIFI-GAN,ISTFTNET和MS-ISTFT-HIFI-GAN。尽管在ISTFTNET和MS-ISTFT-HIFI-GAN中引入了基于短期的傅立叶变换(ISTFT)的快速上取样,但我们首先发现ISTFT层的预测中间特征输入与原始STFT层完全不同,这是由于ISTFT中的重叠式dancy dancy dancy造成的。为了进一步提高合成质量和推理速度,我们提出了FC-HIFI-GAN和MS-FC-HIFI-GAN,通过引入可训练的完全连接(FC)的基于基于重叠的ADD操作而不是ISTFT层的可训练的完全连接(FC)层的快速上采样。对于看不见的说话者合成和E2E TTS条件的实验结果表明,所提出的方法可以稍微加速推理速度,并显着提高基于JETS的E2E TTS的合成质量,而不是ISTFTNET和MS-ISTFTNET和MS-ISTFTNET和MS-ISTFTNET。因此,ISTFT层可以用基于HIFI-GAN基于HIFI-GAN的神经声码编码器中的基于重叠的ADD操作的提议的可训练FC层的上采样代替。
深层生成模型可以生成以各种类型表示形式(例如Mel-Spectrograms,Mel-Frequency cepstral系数(MFCC))生成的高保真音频。最近,此类模型已用于合成以高度压缩表示为条件的音频波形。尽管这种方法产生了令人印象深刻的结果,但它们很容易在调理有缺陷或不完美时产生可听见的伪影。另一种建模方法是使用扩散模型。但是,这些主要用作语音声码器(即以MEL光谱图为条件)或产生相对较低的采样率信号。在这项工作中,我们提出了一个高保真性的基于扩散的框架,该框架从低比二酸离散表示形式中生成任何类型的音频模式(例如,语音,音乐,音乐,环境声音)。以同样的比率,就感知质量而言,该方法的表现优于最先进的生成技术。培训和评估代码可在Face-Bookerearch/Audiocraft GitHub项目上找到。在以下链接上可用。
摘要:人工耳蜗是最成功的神经假体,全球有 100 万用户。研究人员使用源滤波器模型和语音声码器设计了现代多通道植入物,使植入者在安静的环境中平均能够实现 70% - 80% 的正确句子识别。研究人员还使用人工耳蜗帮助理解响度、音调和皮质可塑性的基本机制。虽然前端处理技术进步提高了噪音中的语音识别能力,但单侧植入物在安静环境中的语音识别能力自 1990 年代初以来一直处于停滞状态。这种缺乏进展的情况要求采取行动重新设计人工耳蜗刺激界面并与一般神经技术界合作。VC 2022 作者。除非另有说明,否则所有文章内容均根据知识共享署名 (CC BY) 许可证 ( http://creativecommons.org/licenses/by/4.0/ ) 获得许可。
生成模型近年来因其在需要估算和采样数据分布以生成高保真综合数据的任务方面取得了巨大成功而引起了越来越多的关注。在语音,文本到语音综合和神经声码器中是生成模型的好例子。虽然生成模型已应用于语音中的不同应用,但没有直接模拟语音的通用生成模型。在这项工作中,我们通过显示单个预训练的属性模型来朝着这个方向迈出了一步,可以适应具有很强性能的不同下游任务。具体来说,我们预先训练了一个名为SpeechFlow的生成模型,该模型在60k小时的未转录语音和流量匹配和蒙版条件下进行了预先培训。实验结果表明,预先训练的生成模型可以通过特定于任务的数据进行微调,以匹配或超过有关语音增强,分离和合成的现有专家模型。我们的工作建议使用生成的预培训来构建语音生成任务的基础模型。可以在https://voicebox.metademolab.com/speechflow.html上找到音频样本。
摘要 - 从大脑中的神经活动中解码口语是一个快速的研究主题,因为它可以使在产生可听见的语音困难的人们中进行沟通。对于此任务,电皮质学(ECOG)是记录具有高时间分辨率和高空间精度的大脑活动的常见方法。但是,由于获得ECOG记录所需的风险外科手术程序,收集了相对较少的数据,并且该数量不足以训练基于神经网络的脑对语音(BTS)系统。为了解决这个问题,我们提出了Braintalker,这是一个新颖的BTS框架,它在极低的资源场景下从ECOG信号中产生可理解的口语演讲。我们使用预先训练的自我监督模型WAV2VEC 2.0采用转移学习方法。具体来说,我们训练一个编码器模块将ECOG信号映射到匹配相应口语语音的wav2Vec 2.0表示的潜在嵌入。然后,使用堆叠的卷积和基于变压器的层将这些嵌入转化为MEL光谱图,这些图形被送入神经声码器中以合成语音波形。实验结果表明,我们所提出的框架在主观和客观指标方面达到了出色的表现,包括生成的和地面真相光谱图之间的Pearson相关系数为0.9。我们共享公开可用的演示和代码1。