最近,端到端语音综合中已采用神经声码器将中间光谱表示转换为相应的语音波形。在本文中,提出了两个基于生成的对抗性网络(GAN)的声码器,平行的Wavegan和Hifi-GAN,用于缅甸终端语音综合和主观评估,以比较模型的绩效。主观评估结果表明,在小型缅甸语音数据集中训练的两个模型都以快速的推理速度实现了高保真性语音综合,表明了对未见扬声器的旋光磁化倒置的能力。具体来说,在端到端的语音合成中,tacotron2与Hifi-Gan Vocoder的Tacotron2达到了最先进的性能,从而获得了4.37的缅甸语言意见分数(MOS)。
6 神经技术和神经康复中心,神经病学系,麻省总医院,哈佛医学院,马萨诸塞州波士顿 * 共同资深作者 通讯作者:Maitreyee Wairagkar (mwairagkar@ucdavis.edu) David Brandman (dmbrandman@ucdavis.edu) Sergey Stavisky (sstavisky@ucdavis.edu) 摘要:脑机接口 (BCI) 有可能恢复因神经疾病或受伤而失去说话能力的人的交流。BCI 已被用于将试图说话的神经相关性转化为文本 1–3 。然而,文本通信无法捕捉人类语音的细微差别,例如韵律、语调和立即听到自己的声音。在这里,我们展示了一种“脑转语音”神经假体,它通过解码植入在患有肌萎缩侧索硬化症和严重构音障碍的男子腹侧中央前回的 256 个微电极的神经活动,瞬间合成具有闭环音频反馈的语音。我们克服了缺乏用于训练神经解码器的真实语音的挑战,并能够准确地合成他的声音。除了音素内容,我们还能够从皮层内活动中解码副语言特征,使参与者能够实时调节他的 BCI 合成语音以改变语调、强调单词和唱短旋律。这些结果证明了通过 BCI 让瘫痪者清晰而富有表现力地说话的可行性。简介:说话是人类的一项基本能力,失去说话能力对患有神经系统疾病和受伤的人来说是毁灭性的。脑机接口 (BCI) 是一种很有前途的治疗方法,它通过解码神经活动 4 来绕过神经系统受损的部分,从而恢复语言能力。BCI 的最新演示主要集中在将神经活动解码为屏幕上的文本 2,3 ,并且具有高精度 1 。虽然这些方法提供了恢复交流的中间解决方案,但仅靠文本交流无法提供具有闭环音频反馈的数字替代发声装置,也无法恢复人类语音的关键细微差别,包括韵律。
1心理学的认知,情感和方法系,维也纳大学,奥地利维也纳大学。2心理学系和瑞士情感科学中心,瑞士日内瓦大学。3纽约大学心理学系,美国纽约,美国。 4心理学和神经科学研究所,芝加哥大学,伊利诺伊州芝加哥,美国。 5环境与森林科学学院和美国华盛顿州华盛顿大学华盛顿大学心理学系。 6,美国加利福尼亚州斯坦福大学斯坦福大学心理学系。 7 Lise Meitner环境神经科学集团,德国柏林Max Planck人类发展研究所。 8 Emmett环境与资源跨学科计划,美国加利福尼亚州斯坦福大学斯坦福大学。 9认知科学中心,维也纳大学,奥地利维也纳。 10目前的地址:欧洲环境与人类健康中心,埃克塞特大学,英国佩林。 11当前地址:环境与气候研究中心(ECH),奥地利维也纳。 电子邮件:kimberlycdoell@gmail.com; tobias.brosch@unige.ch3纽约大学心理学系,美国纽约,美国。4心理学和神经科学研究所,芝加哥大学,伊利诺伊州芝加哥,美国。5环境与森林科学学院和美国华盛顿州华盛顿大学华盛顿大学心理学系。 6,美国加利福尼亚州斯坦福大学斯坦福大学心理学系。 7 Lise Meitner环境神经科学集团,德国柏林Max Planck人类发展研究所。 8 Emmett环境与资源跨学科计划,美国加利福尼亚州斯坦福大学斯坦福大学。 9认知科学中心,维也纳大学,奥地利维也纳。 10目前的地址:欧洲环境与人类健康中心,埃克塞特大学,英国佩林。 11当前地址:环境与气候研究中心(ECH),奥地利维也纳。 电子邮件:kimberlycdoell@gmail.com; tobias.brosch@unige.ch5环境与森林科学学院和美国华盛顿州华盛顿大学华盛顿大学心理学系。6,美国加利福尼亚州斯坦福大学斯坦福大学心理学系。 7 Lise Meitner环境神经科学集团,德国柏林Max Planck人类发展研究所。 8 Emmett环境与资源跨学科计划,美国加利福尼亚州斯坦福大学斯坦福大学。 9认知科学中心,维也纳大学,奥地利维也纳。 10目前的地址:欧洲环境与人类健康中心,埃克塞特大学,英国佩林。 11当前地址:环境与气候研究中心(ECH),奥地利维也纳。 电子邮件:kimberlycdoell@gmail.com; tobias.brosch@unige.ch6,美国加利福尼亚州斯坦福大学斯坦福大学心理学系。7 Lise Meitner环境神经科学集团,德国柏林Max Planck人类发展研究所。8 Emmett环境与资源跨学科计划,美国加利福尼亚州斯坦福大学斯坦福大学。 9认知科学中心,维也纳大学,奥地利维也纳。 10目前的地址:欧洲环境与人类健康中心,埃克塞特大学,英国佩林。 11当前地址:环境与气候研究中心(ECH),奥地利维也纳。 电子邮件:kimberlycdoell@gmail.com; tobias.brosch@unige.ch8 Emmett环境与资源跨学科计划,美国加利福尼亚州斯坦福大学斯坦福大学。9认知科学中心,维也纳大学,奥地利维也纳。10目前的地址:欧洲环境与人类健康中心,埃克塞特大学,英国佩林。11当前地址:环境与气候研究中心(ECH),奥地利维也纳。电子邮件:kimberlycdoell@gmail.com; tobias.brosch@unige.ch电子邮件:kimberlycdoell@gmail.com; tobias.brosch@unige.ch
基础模型的最新进展已使音频生成模型产生与音乐,事件和人类行动相关的高保真声音。尽管在现代音频产生模型中取得了成功,但评估音频发电质量的常规方法在很大程度上取决于Frechet Audio距离等距离指标。相比之下,我们旨在通过检查使用它们作为训练数据的有效性来评估音频产生的质量。具体来说,我们进行了研究,以探索合成音频识别的使用。此外,我们研究合成音频是否可以作为语音相关建模中数据增强的资源。我们的全面实验证明了使用合成音频进行音频识别和与语音相关的建模的潜力。我们的代码可在https://github.com/usc-sail/synthaudio上找到。索引术语:音频生成,音频事件识别,合成数据,语音建模
扩散模型在单个模态内的持续数据中脱颖而出。将其有效的语音识别扩展到语音识别,其中连续的语音框架被用作生成离散单词令牌的条件,在离散状态空间中建立条件扩散至关重要。本文介绍了一个非自动性散布扩散模型,从而通过迭代分化步骤可以平行地生成与语音信号相对应的单词字符串。一个声学变压器编码器标识了语音表示形式,它是DeNoising Transformer解码器预测整个离散序列的条件。为了解决交叉模式扩散的冗余降低,在优化的情况下集成了另一个特征去相关目标。本文通过使用快速采样方法进一步减少推理时间。语音识别的实验说明了提出方法的优点。索引术语:语音识别,扩散模型,特征去相关,快速采样
脑机接口 (BCI) 为无法使用声音或手势的个体开辟了交流的途径。无声语音接口就是这样一种 BCI 方法,它可以提供一种与外部世界连接的变革性方式。然而,由于数据稀缺以及脑信号中缺乏想象语音的明确起点和终点等原因,想象语音解码的性能相当低。我们研究是否可以通过两种方式使用来自清晰语音的脑电图 (EEG) 信号来改善想象语音解码:我们研究是否可以使用清晰语音 EEG 信号来预测想象语音的终点,并使用清晰语音 EEG 作为与说话者无关的想象元音分类的额外训练数据。我们的结果表明,使用来自清晰语音的 EEG 数据并不能改善想象语音中元音的分类,这可能是因为说话者之间的 EEG 信号变化很大。索引术语:脑机接口、隐蔽(想象)语音、脑电图 (EEG)。
语音情感识别(SER)是任何人类机器相互作用的必不可少的组成部分,并启用构建善解人意的语音用户界面。在与基于语音的呼叫中心(基于语音的呼叫中心)一样,当一个人与机器或代理互动时,在嘈杂环境中准确识别情绪的能力在实践场景中很重要。在本文中,我们提出了基于加强学习(RL)的数据增强技术,以构建强大的SER系统。RL中使用的奖励函数启用选择性噪声分布在不同的频带上以进行数据增强。我们表明,所提出的基于RL的增强技术优于最近提出的基于随机选择的技术,用于噪声稳健的SER任务。我们将IEMOCAP数据集与四个情绪类别类别一起验证所提出的技术。更重要的是,我们在跨语料库和跨语言场景中测试SER系统的噪声稳健性。索引术语:语音情绪识别,稳健性,选择性数据增强,强化学习。
深度学习的语音增强已取得了显着的进步。然而,诸如语音扭曲和伪像之类的挑战仍然存在。这些问题可以降低听觉质量和语音识别系统的准确性,这在采用轻量级模型时尤其。因此,本文研究了管理语音失真和伪像的基本原则,并引入了一种新颖的组合损失函数,该函数整合了语音活动检测(VAD)信息和语音连续性以解决问题。此外,基于提出的损失功能设计了一种新的培训策略,以解决训练极小模型上这种综合损失的困难。实验 - 我们的方法对DNS2020数据集的有效性和实际会议数据在增强主观和objective语音指标以及自动语音识别(ASR)性能方面的有效性。索引术语:言语增强,损失功能,语音差异,光谱中断,伪影