抽象虽然端到端(E2E)具有基于HIFI-GAN的神经声码器(例如vits and jets)可以以快速推理速度实现类似人类的语音质量,这些模型仍然有空间可以通过CPU使用CPU来进一步提高推理速度,因为基于HIFI-GAN的神经声码器单元是一种瓶颈。此外,HIFI-GAN不仅被广泛用于TT,而且用于许多语音和音频应用。在维持合成质量的同时,已经提出了多式(MS)-HIFI-GAN,ISTFTNET和MS-ISTFT-HIFI-GAN。尽管在ISTFTNET和MS-ISTFT-HIFI-GAN中引入了基于短期的傅立叶变换(ISTFT)的快速上取样,但我们首先发现ISTFT层的预测中间特征输入与原始STFT层完全不同,这是由于ISTFT中的重叠式dancy dancy dancy造成的。为了进一步提高合成质量和推理速度,我们提出了FC-HIFI-GAN和MS-FC-HIFI-GAN,通过引入可训练的完全连接(FC)的基于基于重叠的ADD操作而不是ISTFT层的可训练的完全连接(FC)层的快速上采样。对于看不见的说话者合成和E2E TTS条件的实验结果表明,所提出的方法可以稍微加速推理速度,并显着提高基于JETS的E2E TTS的合成质量,而不是ISTFTNET和MS-ISTFTNET和MS-ISTFTNET和MS-ISTFTNET。因此,ISTFT层可以用基于HIFI-GAN基于HIFI-GAN的神经声码编码器中的基于重叠的ADD操作的提议的可训练FC层的上采样代替。
目标:早期检测到心血管疾病(CVD)可以进行治疗,并显着降低死亡率。传统上,由于其成本率和简单性,因此使用Phoncartiogram(PCG)信号来检测心血管疾病。尽管如此,各种环境和生理噪声经常会产生PCG信号,从而损害了它们的基本独特特征。在人满为患和受资源受限的医院中,此问题的普遍性可能会损害医学诊断的准确性。因此,本研究旨在发现使用嘈杂的心脏声音信号检测CVD的最佳转换方法,并提出一个噪声强大的网络,以改善CVDS分类。方法:为了鉴定嘈杂心脏声音数据的最佳变换方法MEL频率cepstral coe ffi cients(MFCC),短期傅立叶变换(STFT),常数Q非组织Gabor Transform(CQT)和连续的Wavelet Transform(CWT)已与VGGGGG一起使用。此外,我们提出了一种新型的卷积复发性神经网络(CRNN)结构,称为噪声鲁棒有氧运动(NRC-NET),该结构是一个轻巧的模型,用于对二尖瓣反流,主动脉狭窄,二位骨狭窄,二尖瓣膨胀,二尖瓣脱垂和使用PCG的正常心脏的声音和随机呼吸的正常心脏的声音和正常呼吸道抗衡。包括一个注意块,以从嘈杂的腐败心脏声音中提取重要的时间和空间特征。结果:这项研究的结果表明,CWT是最佳转换
摘要 明尼苏达大学的研究人员率先提出了脑控无人机的概念,并由此引发了一系列研究。这些早期的努力为更先进的脑控无人机原型奠定了基础。然而,由于 BCI 信号具有非平稳性和高维性,因此本质上非常复杂。因此,仔细考虑特征提取和分类过程至关重要。本研究引入了一种新方法,将预训练的 CNN 与经典神经网络分类器和 STFT 频谱相结合,形成多层 CNN 模型 (MTCNN)。MTCNN 模型用于解码两类运动想象 (MI) 信号,从而实现对无人机上下运动的控制。本研究的实验阶段涉及四个关键实验。第一个实验使用大量数据集评估了 MTCNN 模型的性能,分类准确率高达 99.1%。第二个和第三个实验针对同一受试者在两个不同的数据集上评估了该模型,成功解决了与受试者间和受试者内差异相关的挑战。 MTCNN 模型在两个数据集上都实现了 99.7% 的出色分类准确率。在第四次实验中,该模型在另一个数据集上进行了验证,实现了 100% 和 99.6% 的分类准确率。值得注意的是,MTCNN 模型在两个 BCI 竞赛数据集上的准确率超过了现有文献。总之,MTCNN 模型展示了其解码与左手和右手运动相关的 MI 信号的潜力,为脑控无人机领域提供了有希望的应用,特别是在控制上下运动方面。此外,MTCNN 模型有可能通过促进该模型与基于 MI 的无人机控制系统的集成,为 BCI-MI 社区做出重大贡献。
摘要 线材和电弧增材制造 (WAAM) 是一种增材制造 (AM) 工艺,可以生产大型金属部件,材料浪费少,生产率高。然而,WAAM 的高沉积率需要高热量输入,这可能导致孔隙、裂纹、未熔合或变形等潜在缺陷。为了在工业环境中实际实施 WAAM 工艺,必须确保无缺陷生产。然而,使用传统 NDT 技术(例如超声波、涡流、X 射线)进行 NDT 检测是一项非常艰巨的任务,尤其是在零件生产过程中。因此,需要可靠的在线 NDT 检测和监测技术来推广 WAAM 的工业应用。这项工作的目的是使用频率带宽为 10 至 1MHz 的现场采集声学数据来检测 WAAM 生产零件上的缺陷形成。WAAM 零件经过故意引入污染物的处理,同时获取其声学信号以将不同的信号特征与缺陷关联起来。为了识别缺陷形成,使用了两种不同类型的麦克风从同一沉积过程中获取数据。信号处理包括应用时域和频域技术,即功率谱密度和短时傅立叶变换。获得的声学特征可以区分有缺陷和无缺陷的信号,并确定污染物的空间位置。获取的声学信号还表明,传统麦克风获取的数据不足以完全表征 WAAM 工艺发出的声谱。这项工作展示了声学数据和信号处理在 WAAM 生产部件的在线检查中的潜力。关键词:WAAM、声学、傅里叶变换、光学麦克风、STFT
摘要 —本文提出了一种神经形态音频处理的新方法,将脉冲神经网络 (SNN)、Transformers 和高性能计算 (HPC) 的优势整合到 HPCNeuroNet 架构中。利用英特尔 N-DNS 数据集,我们展示了该系统处理多种语言和噪声背景下的不同人类声音录音的能力。我们方法的核心在于将 SNN 的时间动态与 Transformers 的注意机制相融合,使模型能够捕捉复杂的音频模式和关系。我们的架构 HPC-NeuroNet 采用短时傅里叶变换 (STFT) 进行时频表示,采用 Transformer 嵌入进行密集向量生成,采用 SNN 编码/解码机制进行脉冲序列转换。通过利用 NVIDIA 的 GeForce RTX 3060 GPU 和英特尔的 Core i9 12900H CPU 的计算能力,系统的性能得到进一步增强。此外,我们在 Xilinx VU37P HBM FPGA 平台上引入了硬件实现,针对能源效率和实时处理进行了优化。所提出的加速器在 100 MHz 下实现了 71.11 千兆操作每秒 (GOP/s) 的吞吐量,片上功耗为 3.55 W。与现成设备和最新最先进实现的比较结果表明,所提出的加速器在能源效率和设计灵活性方面具有明显优势。通过设计空间探索,我们提供了优化音频任务核心容量的见解。我们的发现强调了集成 SNN、Transformers 和 HPC 进行神经形态音频处理的变革潜力,为未来的研究和应用树立了新的标杆。
驾驶员疲劳检测是减少事故、提高交通安全的重要手段之一,其主要挑战在于如何准确识别驾驶员的疲劳状态。现有的检测方法包括基于面部表情和生理信号的打哈欠、眨眼等,但基于面部表情的检测结果会受到光照和环境影响,而脑电信号是直接反应人的精神状态的生理信号,对检测结果的影响较小。本文提出一种基于EEG的对数梅尔语谱图和卷积循环神经网络(CRNN)模型来实现驾驶员疲劳检测,这种结构可以发挥不同网络的优势,克服单独使用各个网络的劣势。其流程为:首先将原始脑电信号经过一维卷积的方法实现短时傅里叶变换(STFT),并经过梅尔滤波器组得到对数梅尔谱图,然后将得到的对数梅尔谱图输入到疲劳检测模型中,完成脑电信号的疲劳检测任务。疲劳检测模型由6层卷积神经网络(CNN)、双向循环神经网络(Bi-RNN)和分类器组成。在建模阶段,将谱图特征输送到6层CNN自动学习高级特征,从而在双向RNN中提取时间特征,得到谱图-时间信息。最后,通过由全连接层、ReLU激活函数和softmax函数组成的分类器得到警觉或疲劳状态。本研究的实验是在公开可用的数据集上进行的。结果表明,该方法能够准确区分警觉与疲劳状态,且稳定性较高;此外,还将四种现有方法的性能与本文方法的结果进行了比较,均表明本文方法能够取得目前为止的最好效果。
摘要:运动想象作为自发性脑机接口的重要范式,被广泛应用于神经康复、机器人控制等领域。近年来,研究者提出了多种基于运动想象信号的特征提取和分类方法,其中基于深度神经网络(DNN)的解码模型在运动想象信号处理领域引起了广泛关注。由于对受试者和实验环境的严格要求,收集大规模高质量的脑电图(EEG)数据非常困难,而深度学习模型的性能直接取决于数据集的大小。因此,基于DNN的MI-EEG信号解码在实践中被证明是非常具有挑战性的。基于此,我们研究了不同的数据增强(DA)方法在使用DNN对运动想象数据进行分类的性能。首先,我们使用短时傅里叶变换(STFT)将时间序列信号转换为频谱图像。然后,我们评估并比较了不同 DA 方法对该频谱图数据的性能。接下来,我们开发了一个卷积神经网络(CNN)来对 MI 信号进行分类,并比较了 DA 后的分类性能。使用 Frechet 初始距离(FID)评估生成数据(GD)的质量和分类准确率,使用平均 kappa 值探索最佳的 CNN-DA 方法。此外,使用方差分析(ANOVA)和配对 t 检验来评估结果的显著性。结果表明,深度卷积生成对抗网络(DCGAN)比传统 DA 方法:几何变换(GT)、自动编码器(AE)和变分自动编码器(VAE)提供了更好的增强性能(p < 0.01)。使用 BCI 竞赛 IV(数据集 1 和 2b)的公共数据集来验证分类性能。经过 DA 后,两个数据集的分类准确率分别提高了 17% 和 21%(p < 0.01)。此外,混合网络 CNN-DCGAN 的表现优于其他分类方法,两个数据集的平均 kappa 值分别为 0.564 和 0.677。