Direct speech synthesis from neural activity can enable individuals to communicate without articulatory movement or vocalization. A number of recent speech brain-computer interface (BCI) studies have been conducted using invasive neuroimaging techniques, which require neurosurgery to implant electrodes in the brain. In this study, we investigated the feasibility of direct speech synthesis from non-invasive, magnetoencephalography (MEG) signals acquired while participants performed overt speech production tasks. We used a transformer-based framework (Squeezeformer) to convert neural signals into Mel-spectrograms followed by a neural vocoder to generate speech. Our approach achieved an average correlation coefficient of 0.95 between the target and the generated Mel spectrograms, indicating high fidelity. To the best of our knowledge, this is the first demonstration of synthesizing intelligible speech directly from non-invasive brain signals. Index Terms : speech brain-computer interface, neural speech synthesis, magnetoencephalography, transformer
本文介绍了一种针对真实无线立体声(TWS)耳塞的语音增强解决方案。该解决方案是专门设计的,以支持嘈杂的环境中的对话,并具有主动噪声(ANC)的作用。在这种情况下,语音增强模型的主要挑战是由计算复杂性引起的,该计算复杂性限制了设备的使用和延迟,必须小于3 ms才能进行现场对话。为了解决这些问题,我们评估了几个关键的设计元素,包括网络档案和域,损失功能的设计,修剪方法和特定于硬件的优化。因此,与基线模型相比,我们阐述了语音增强质量的实质性改进,同时降低了计算复杂性和算法延迟。索引术语:低延迟语音增强,修剪和量化,数字信号处理器,耳塞,设备上
基础模型的最新进展已使音频生成模型产生与音乐,事件和人类行动相关的高保真声音。尽管在现代音频产生模型中取得了成功,但评估音频发电质量的常规方法在很大程度上取决于Frechet Audio距离等距离指标。相比之下,我们旨在通过检查使用它们作为训练数据的有效性来评估音频产生的质量。具体来说,我们进行了研究,以探索合成音频识别的使用。此外,我们研究合成音频是否可以作为语音相关建模中数据增强的资源。我们的全面实验证明了使用合成音频进行音频识别和与语音相关的建模的潜力。我们的代码可在https://github.com/usc-sail/synthaudio上找到。索引术语:音频生成,音频事件识别,合成数据,语音建模
扩散模型在单个模态内的持续数据中脱颖而出。将其有效的语音识别扩展到语音识别,其中连续的语音框架被用作生成离散单词令牌的条件,在离散状态空间中建立条件扩散至关重要。本文介绍了一个非自动性散布扩散模型,从而通过迭代分化步骤可以平行地生成与语音信号相对应的单词字符串。一个声学变压器编码器标识了语音表示形式,它是DeNoising Transformer解码器预测整个离散序列的条件。为了解决交叉模式扩散的冗余降低,在优化的情况下集成了另一个特征去相关目标。本文通过使用快速采样方法进一步减少推理时间。语音识别的实验说明了提出方法的优点。索引术语:语音识别,扩散模型,特征去相关,快速采样
语音情感识别(SER)是任何人类机器相互作用的必不可少的组成部分,并启用构建善解人意的语音用户界面。在与基于语音的呼叫中心(基于语音的呼叫中心)一样,当一个人与机器或代理互动时,在嘈杂环境中准确识别情绪的能力在实践场景中很重要。在本文中,我们提出了基于加强学习(RL)的数据增强技术,以构建强大的SER系统。RL中使用的奖励函数启用选择性噪声分布在不同的频带上以进行数据增强。我们表明,所提出的基于RL的增强技术优于最近提出的基于随机选择的技术,用于噪声稳健的SER任务。我们将IEMOCAP数据集与四个情绪类别类别一起验证所提出的技术。更重要的是,我们在跨语料库和跨语言场景中测试SER系统的噪声稳健性。索引术语:语音情绪识别,稳健性,选择性数据增强,强化学习。
深度学习的语音增强已取得了显着的进步。然而,诸如语音扭曲和伪像之类的挑战仍然存在。这些问题可以降低听觉质量和语音识别系统的准确性,这在采用轻量级模型时尤其。因此,本文研究了管理语音失真和伪像的基本原则,并引入了一种新颖的组合损失函数,该函数整合了语音活动检测(VAD)信息和语音连续性以解决问题。此外,基于提出的损失功能设计了一种新的培训策略,以解决训练极小模型上这种综合损失的困难。实验 - 我们的方法对DNS2020数据集的有效性和实际会议数据在增强主观和objective语音指标以及自动语音识别(ASR)性能方面的有效性。索引术语:言语增强,损失功能,语音差异,光谱中断,伪影
这项工作涉及使用(i)基础模型从现实世界中的言语中设计出强大的帕金森氏病(PD)疾病检测器,以及(ii)语音增强(SE)方法。为此,我们首先在标准PC-GITA(S-PC-GITA)清洁数据上微调了几种基于基础的模型。我们的结果表明,与先前提出的模型相比。第二,我们评估了PD模型在扩展PC-GITA(E-PC-GITA)录音中的概括能力,该记录在现实的操作条件下收集,并观察到从理想到现实世界中的绩效下降。第三,我们对E-PC-GITA上的现成SE技术的培训和测试条件保持一致,并且仅针对基于基础的模型才能实现绩效的显着提升。最后,在S-PC-GITA(即WAVLM基础)和Hubert Base上培训了两个最佳基础模型,在增强的E-PC-GITA上产生了最高的表现。索引术语:帕金森检测,基础模型,深神经网络,健康言语
在各种声学环境中,在各种声音环境中实现强大的语音分离,并带来了一个开放的挑战。尽管现有的数据集可用于训练分离器以获取特定方案,但它们并未在各种现实世界中概括地概括。在本文中,我们提出了一条新型的数据模拟管道,该管道从一系列声学环境和内容中产生各种培训数据,并提出了新的培训范式,以提高一般语音分离模型的质量。具体来说,我们首先引入AC-SIM,AC-SIM是一种数据模拟管道,该管道结合了内容和声学的广泛变化。然后,我们将多个培训目标纳入置换不变训练(PIT),以增强训练有素的模型的分离质量和概括。最后,我们在分离界和基准之间进行了全面的观察和人类听力实验,以验证我们的方法,从而对非同源和现实世界测试集进行了实质性改进。索引术语:语音分离,数据模拟,多损失优化
本研究探讨了使用机器学习来对语音的声学特征进行分类以检测学龄前儿童的听力损失的可行性。承认早期听力损失识别的批评发展影响以及与该年龄段的传统测试方法相关的挑战,我们提出了一种新颖的,可扩展的方法杠杆自动语音分析。使用有或没有听力损失的儿童的语音记录,我们使用WAV2VEC 2.0并比较功能集来捕获语音特征并比较LSTM,DNN和XGBoost分类器。我们的发现表明,这些模型可以准确区分听力损失的儿童的语音和正常听力的儿童的语音,最多可获得96.4%的精度。这项概念验证研究表明,使用语音进行早期听力损失检测的潜力,以及通往非侵入性,可扩展的筛查工具的途径,这些工具可能会显着有益于早期发展结果。索引术语:听力损失,语音分析,语音分类,WAV2VEC 2.0,计算听力学