摘要 —本文提出了一种神经形态音频处理的新方法,将脉冲神经网络 (SNN)、Transformers 和高性能计算 (HPC) 的优势整合到 HPCNeuroNet 架构中。利用英特尔 N-DNS 数据集,我们展示了该系统处理多种语言和噪声背景下的不同人类声音录音的能力。我们方法的核心在于将 SNN 的时间动态与 Transformers 的注意机制相融合,使模型能够捕捉复杂的音频模式和关系。我们的架构 HPC-NeuroNet 采用短时傅里叶变换 (STFT) 进行时频表示,采用 Transformer 嵌入进行密集向量生成,采用 SNN 编码/解码机制进行脉冲序列转换。通过利用 NVIDIA 的 GeForce RTX 3060 GPU 和英特尔的 Core i9 12900H CPU 的计算能力,系统的性能得到进一步增强。此外,我们在 Xilinx VU37P HBM FPGA 平台上引入了硬件实现,针对能源效率和实时处理进行了优化。所提出的加速器在 100 MHz 下实现了 71.11 千兆操作每秒 (GOP/s) 的吞吐量,片上功耗为 3.55 W。与现成设备和最新最先进实现的比较结果表明,所提出的加速器在能源效率和设计灵活性方面具有明显优势。通过设计空间探索,我们提供了优化音频任务核心容量的见解。我们的发现强调了集成 SNN、Transformers 和 HPC 进行神经形态音频处理的变革潜力,为未来的研究和应用树立了新的标杆。
摘要:最近,使用脑电图 (EEG) 进行音频信号处理中的模式识别引起了广泛关注。眼部情况(睁眼或闭眼)的变化反映在 EEG 数据的不同模式中,这些数据是从一系列情况和动作中收集的。因此,从这些信号中提取其他信息的准确性在很大程度上取决于在采集 EEG 信号期间对眼部情况的预测。在本文中,我们使用深度学习矢量量化 (DLVQ) 和前馈人工神经网络 (F-FANN) 技术来识别眼部情况。由于 DLVQ 能够学习代码约束的码本,因此在分类问题上优于传统 VQ。在使用 k 均值 VQ 方法初始化后,DLVQ 在 EEG 音频信息检索任务上测试时表现出非常出色的性能,而 F-FANN 将眼部状态的 EEG 音频信号分类为睁眼或闭眼。与 F-FANN 相比,DLVQ 模型具有更高的分类准确度、更高的 F 分数、精确度和召回率,以及更出色的分类能力。
超扫描是一种新兴技术,可用于研究互动个体之间的大脑相似性。这种方法对于理解联合动作(例如对话)的神经基础具有重要意义;然而,它还要求不同的大脑记录和感官刺激之间精确的时间锁定。然而,这种精确的时间通常很难实现。将听觉刺激与持续的高时间分辨率神经生理信号一起记录是一种有效的方法,可以离线控制刺激程序发送的数字触发器与通过扬声器/耳机传递给参与者的听觉刺激的实际开始之间的时间异步。由于该方法的复杂性普遍增加,这种配置在超扫描设置中尤其具有挑战性。在使用相关伪超扫描技术的其他设计中,组合大脑听觉记录也是一个非常理想的功能,因为可以使用共享音频信号执行可靠的离线同步。这里,我们描述了两种硬件配置,其中实时传递的听觉刺激与正在进行的脑电图 (EEG) 记录联合记录。具体来说,我们描述并提供使用 Brain Products GmbH 的硬件和软件在超扫描和伪超扫描范式中进行联合 EEG-音频记录的定制实现。