摘要:情感计算是人工智能的一个重要分支,随着脑机接口技术的快速发展,基于脑电信号的情绪识别受到广泛关注。尽管目前已经出现了大量深度学习方法,但有效挖掘脑电数据中的多维信息仍然是一个巨大的挑战。本文提出了一种基于注意的多维脑电变换器(AMDET)深度模型,该模型利用多维全局注意机制,充分利用脑电数据的频谱-空间-时间特征之间的互补性。我们将原始脑电数据转换为 3D 时间-频谱-空间表示,然后 AMDET 将使用频谱-空间变换器编码层提取脑电信号中的有效特征,并通过时间注意层集中在关键时间帧上。我们对 DEAP、SEED 和 SEED-IV 数据集进行了广泛的实验,以评估 AMDET 的性能,结果在三个数据集上均优于最先进的基线。在 DEAP-Arousal、DEAP-Valence、SEED 和 SEED-IV 数据集中分别实现了 97.48%、96.85%、97.17%、87.32% 的准确率。我们还进行了广泛的实验,探索可能影响情绪和 EEG 信号耦合的大脑区域。值得注意的是,即使只有少数通道,AMDET 也能表现良好,这些通道是通过可视化训练模型所学内容来识别的。即使只有八个通道,准确率也可以达到 90% 以上,这对实际应用非常有用和有益。
像 UNet 这样的监督式深度学习网络在分割脑部异常(如病变和肿瘤)方面表现良好。然而,这类方法被提出用于单模态或多模态图像。我们使用混合 UNet Transformer (HUT) 来提高单模态病变分割和多模态脑肿瘤分割的性能。HUT 由两个并行运行的管道组成,其中一个基于 UNet,另一个基于 Transformer。基于 Transformer 的管道在训练期间依赖于 UNet 解码器中间层中的特征图。HUT 网络采用 3D 脑容量的可用模态,并将脑容量嵌入体素斑块中。系统中的变压器提高了全局注意力和体素斑块之间的长程相关性。此外,我们在 HUT 框架中引入了一种自监督训练方法,以提高整体分割性能。我们证明,在中风后病变解剖追踪 (ATLAS) 数据集的单模态分割中,HUT 的表现优于最先进的网络 SPiN,Dice 得分高出 4.84%,Hausdorffi 距离得分高出 41%。HUT 在脑肿瘤分割 (BraTS20) 数据集的脑部扫描中也表现良好,并且比最先进的网络 nnUnet 的 Dice 得分高出 0.96%,Hausdorffi 距离得分高出 4.1%。
视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
摘要:大脑大规模动力学受到内在解剖基础异质性的制约。人们对时空动力学如何适应异质结构连接 (SC) 知之甚少。现代神经成像模式使得研究秒到分钟尺度的内在大脑活动成为可能。扩散磁共振成像 (dMRI) 和功能性 MRI 揭示了不同大脑区域的大规模 SC。电生理方法 (即 MEG/EEG) 提供神经活动的直接测量,并表现出复杂的神经生物学时间动态,而这是 fMRI 无法解决的。然而,大多数现有的多模态分析方法在空间或时间域中折叠大脑测量值,无法捕捉时空电路动态。在本文中,我们提出了一种新颖的时空图 Transformer 模型来整合空间和时间域中的结构和功能连接。所提出的方法使用多模态脑数据(即 fMRI、MRI、MEG 和行为表现)通过对比学习和基于多头注意的图 Transformer 来学习异构节点和图表示。所提出的对比图 Transformer 表示模型结合了受 T1 到 T2 加权(T1w/T2w)约束的异构图,以提高模型对结构功能相互作用的拟合度。使用多模态静息态脑测量的实验结果表明,所提出的方法可以突出大规模脑时空动态的局部特性,并捕捉功能连接和行为之间的依赖强度。总之,所提出的方法能够对不同的模态变体进行复杂的脑动力学解释。
近年来,随着社交媒体平台的繁荣,表情包逐渐成为网络交流的一部分。因此,检测表情包是否对个人或组织具有冒犯性对于确保互联网内容的多样性和可持续性至关重要。对表情包进行分类是否为恶意内容是一项具有挑战性的任务。此外,目前已经有很多工作集中在英语上(Truong 和 Lauw,2019 年;Xu 等,2019 年;Cai 等,2019 年),但针对泰米尔语的研究很少。泰米尔语表情包分类共享任务填补了这一空白。此共享任务的目标是检测从社交媒体平台收集的表情包是否为恶意内容。每个表情包都标有恶意或非恶意类别。此外,每张图片都嵌入了泰米尔语和拉丁字母的字幕转录。这是一个多模态分类任务,给定图像和文本对,系统必须将此对分类为 troll 或非 troll 类。在本文中,我们探索了一种用于泰米尔语 meme 分类的多模态转换器。根据图像和文本的特征,
为了促进从体内磁共振成像 (MRI) 中进行稳健和精确的 3D 血管形状提取和量化,本文提出了一种新型的多尺度知识转移视觉变换器 (即 KT-ViT) 用于 3D 血管形状分割。首先,它以独特的方式在 U-net 架构中将卷积嵌入与变换器相结合,该架构同时以多尺度方式使用卷积层响应局部感受野和使用变换器编码器响应全局上下文。因此,它本质上丰富了局部血管特征,同时促进了全局连通性和连续性,从而实现更准确、可靠的血管形状分割。此外,为了能够使用相对低分辨率 (LR) 的图像来分割细尺度血管形状,设计了一种新颖的知识转移网络来探索数据的相互依赖性,并通过集成多级损失函数,将从高分辨率 (HR) 数据中获得的知识自动转移到多个级别的低分辨率处理网络,包括多尺度特征级和决策级。 HR 图像变换器网络所具有的精细血管形状数据分布建模能力可以转移到 LR 图像变换器,以增强其对精细血管形状分割的知识。在公共图像数据集上的大量实验结果表明,我们的方法优于所有其他最先进的深度学习方法。
仿射配准在全面的医学图像配准流程中不可或缺。然而,只有少数研究关注快速而鲁棒的仿射配准算法。这些研究中大多数利用卷积神经网络(CNN)来学习联合仿射和非参数配准,而对仿射子网络的独立性能探索较少。此外,现有的基于 CNN 的仿射配准方法要么关注局部错位,要么关注输入的全局方向和位置来预测仿射变换矩阵,这些方法对空间初始化很敏感,并且除了训练数据集之外表现出有限的通用性。在本文中,我们提出了一种快速而鲁棒的基于学习的算法,即粗到精视觉变换器(C2FViT),用于 3D 仿射医学图像配准。我们的方法自然地利用了卷积视觉变换器的全局连通性和局部性以及多分辨率策略来学习全局仿射配准。我们对 3D 脑图谱配准和模板匹配归一化方法进行了评估。综合结果表明,我们的方法在配准精度、稳健性和通用性方面优于现有的基于 CNN 的仿射配准方法,同时保留了基于学习的方法的运行时优势。源代码可在 https://github.com/cwmok/C2FViT 上找到。
随着视觉变换器 (ViT) 的巨大成就,基于变换器的方法已成为解决各种计算机视觉任务的新范式。然而,最近的研究表明,与卷积神经网络 (CNN) 类似,ViT 仍然容易受到对抗性攻击。为了探索不同结构模型的共同缺陷,研究人员开始分析跨结构对抗性迁移能力,而这方面仍未得到充分研究。因此,在本文中,我们专注于 ViT 攻击,以提高基于变换器和基于卷积的模型之间的跨结构迁移能力。先前的研究未能彻底调查 ViT 模型内部组件对对抗性迁移能力的影响,导致性能较差。为了克服这个缺点,我们开展了一项激励研究,通过线性缩小 ViT 模型内部组件的梯度来分析它们对对抗性迁移能力的影响。基于这项激励研究,我们发现跳跃连接的梯度对迁移能力的影响最大,并相信来自更深块的反向传播梯度可以增强迁移能力。因此,我们提出了虚拟密集连接方法(VDC)。具体来说,在不改变前向传播的情况下,我们首先重构原始网络以添加虚拟密集连接。然后,在生成对抗样本时,我们通过虚拟密集连接反向传播更深层注意力图和多层感知器(MLP)块的梯度。大量实验证实了我们提出的方法优于最先进的基线方法,ViT模型之间的可迁移性提高了8.2%,从ViT到CNN的跨结构可迁移性提高了7.2%。
PWM是最早提出的控制方法,通过比较参考电压与反馈电压来调整控制信号的占空比,调节DC-DC变换器的输出,达到自动调节的效果,具有输出电压恒定、开关噪声可预测、容易滤波等优点,但由于开关管频率固定、功耗恒定,在轻载时转换效率较差。PFM的引入,利用调整控制信号解决了PWM的轻载问题。频率调制技术减少了转换过程中的开关负载,不需要复杂的变换器结构,因此不需要控制环路补偿网络,但频率变化引起的响应速度慢、输出电压纹波大,会产生难以控制的电磁干扰。两种方法都有各自的特点和问题(Yu,2003)。
摘要:本文将新兴的混合型有源三次谐波电流注入变换器(H3C)应用于电池储能系统(BESS),形成一种新型的H3C-BESS结构。与常用的两级VSC-BESS相比,所提出的H3C-BESS能够减少无源元件和开关损耗。分析了H3C-BESS的工作原理,推导了其数学模型。针对系统的不同运行模式,提出了闭环控制策略和控制器设计,包括电池电流/电压控制和注入谐波电流控制。特别是,通过电网电流控制实现有源阻尼控制,无需无源阻尼电阻即可抑制LC滤波器谐振。仿真结果表明,所提出的拓扑结构及其控制策略具有快速的动态响应,建立时间小于4 ms。此外,电池电流和电网电流的总谐波畸变率分别仅为2.54%和3.15%。注入谐波电流的幅值仅为电网电流的一半,表明电流注入电路的损耗很小。实验结果验证了所提方案的有效性。