摘要:动态飞行临时网络(粉丝)和毫米波(MMWave)技术的集成可以为许多数据密集型应用提供有前途的解决方案,因为它可以建立具有明显的数据传输功能的强大型号基础架构。但是,要在此动态网络中启用有效的MMWave通信,必须精确地对齐安装在无人机上的可可的天线(UAV)与相应的同行单元。因此,设计一种可以快速确定优化对齐和网络拓扑的新颖方法很重要。在本文中,我们提出了一种基于生成的对抗网络(GAN)的方法,称为Wavegan,用于粉丝拓扑优化,旨在通过在最佳的通道条件下选择通信路径来最大化网络吞吐量。所提出的方法由Wavegan模型组成,然后进行梁搜索。前者学习如何从监督数据集中生成优化的网络拓扑,而后者则调整生成的拓扑以满足基于MMWave的粉丝的结构要求。仿真结果表明,所提出的方法能够快速找到粉丝拓扑,并具有很小的最佳差距,适合不同的网络大小。
表2:10级原始音频语音命令分类的最新结果。tenn 16和Tenn 128的精度百分比表示它们在SOTA结果附近达到,但具有一定数的计算和参数数量。数字16和128表示在TENN中执行的亚采样量,进一步减少了参数和计算的数量。wavegan指示与针对原始语音设计的基线CNN(与Wavegan模型的歧视者)相比。是一种通用体系结构,不是针对原始语音设计的特定设计。
最近,端到端语音综合中已采用神经声码器将中间光谱表示转换为相应的语音波形。在本文中,提出了两个基于生成的对抗性网络(GAN)的声码器,平行的Wavegan和Hifi-GAN,用于缅甸终端语音综合和主观评估,以比较模型的绩效。主观评估结果表明,在小型缅甸语音数据集中训练的两个模型都以快速的推理速度实现了高保真性语音综合,表明了对未见扬声器的旋光磁化倒置的能力。具体来说,在端到端的语音合成中,tacotron2与Hifi-Gan Vocoder的Tacotron2达到了最先进的性能,从而获得了4.37的缅甸语言意见分数(MOS)。
摘要。这项研究描述了在想象的语音期间来自电皮质图(ECOG)的语音合成。,尽管使用基于变压器的解码器和预验证的Vocoder,我们的目标是产生高质量的音频。具体来说,我们使用了预训练的神经声码编码器Parallel Wavegan,将Transformer Decoder转换为对Log-Mel频谱图的输出,后者是在ECOG信号上训练的,将其转换为高质量的音频信号。在我们的实验中,使用来自13名参与者的ECOG信号,想象中的语音的综合语音实现了动态时间巡航(DTW)Pearson相关性,范围从0.85到0.95。这种高质量的语音合成可以归因于变压器解码器准确地重建高保真日志频谱图的能力,这证明了其在处理有限训练数据时的有效性。
我们描述了为对话式 AI 用例创建和提供自定义语音的方法。更具体地说,我们为数字爱因斯坦角色提供语音,以便在数字对话体验中实现人机交互。为了创建适合上下文的语音,我们首先设计一个语音角色,然后制作与所需语音属性相对应的录音。然后我们对语音进行建模。我们的解决方案利用 Fastspeech 2 从音素进行对数缩放梅尔频谱图预测,并使用 Parallel WaveGAN 生成波形。系统支持字符输入并在输出时提供语音波形。我们对选定的单词使用自定义词典以确保其正确发音。我们提出的云架构能够实现快速语音传输,从而可以实时与阿尔伯特·爱因斯坦的数字版本对话。索引词:人机交互、对话式人工智能、文本转语音