33.2 一款低于 1 µ J/级的集成思维意象与控制 SoC,适用于 VR/MR 应用,具有师生 CNN 和通用指令集架构 Zhiwei Zhong*、Yijie Wei*、Lance Christopher Go、Jie Gu 西北大学,伊利诺伊州埃文斯顿 * 同等署名作者 (ECA) 虚拟现实 (VR) 和混合现实 (MR) 系统,例如 Meta Quest 和 Apple Vision Pro,最近在消费电子产品中引起了极大的兴趣,在游戏、社交网络、劳动力援助、在线购物等元宇宙中掀起了新一波发展浪潮。AI 计算和多模块人类活动跟踪和控制方面的强大技术创新已经产生了身临其境的虚拟现实用户体验。然而,大多数现有的 VR 耳机仅依靠传统的操纵杆或基于摄像头的用户手势进行输入控制和人体跟踪,缺少一个重要的信息来源,即大脑活动。因此,人们对将脑机接口 (BMI) 整合到 VR/MR 系统中以供消费者和临床应用的兴趣日益浓厚 [1]。如图 33.2.1 所示,现有的集成 EEG 通道的 VR/MR 系统通常由 VR 耳机、16/32 通道 EEG 帽、神经记录模拟前端和用于信号分类的 PC 组成。此类系统的主要缺点包括:(1)佩戴麻烦且用户外观不佳,(2)缺乏低延迟操作的现场计算支持,(3)无法根据大脑活动进行实时思维意象控制和反馈,(4)由于 AI 分类导致的功耗高。为了克服这些挑战,这项工作引入了一种思维意象设备,该设备集成到现有的 VR 耳机中,而无需为 VR/MR 系统的思维控制 BMI 增加额外的佩戴负担。本研究的贡献包括:(1)支持 VR/MR 系统现场心智意象控制的 SoC,(2)与现有 VR 耳机无缝集成并优化 EEG 通道选择,以提高用户接受度和体验,(3)具有灵活数据流的通用指令集架构 (ISA),支持广泛的心智意象操作,(4)混淆矩阵引导的师生 CNN 方案,可在 AI 操作期间节省电量,(5)EEG 信号的稀疏性增强以降低能耗。制造了 65nm SoC 测试芯片,并在各种基于心智意象的 VR 控制上进行了现场演示。虽然先前的研究涉及基于 EEG 的癫痫检测或类似的生物医学应用 [2-6],但本研究专注于 VR/MR 环境中的新兴 BMI。得益于低功耗特性和设计的系统级优化,SoC 的数字核心在计算密集型 CNN 操作中实现了 <1μJ/类的能耗。图 33.2.2 显示了 EEG 通道选择和集成到 Meta Quest 2 VR 耳机中,在准确性和用户便利性之间进行了权衡。为了支持各种思维意象任务,8 个 EEG 通道 T3、T5、O1、O2、T6、T4、PZ、和 CZ 被选中并巧妙地融入头带以保持用户的美感。不同的心理任务会激活八个选定通道的子集,例如用于心理意象的 T3/T5/CZ/T4/T6、用于情感(例如情绪)监测的 T5/CZ 或用于稳态视觉诱发电位 (SSVEP) 的 O1/O2/PZ。通道的减少导致三个主要任务的平均准确率略有下降(从 90.4% 下降到 85.2%),但显着提高了用户体验和可用性。带有生理盐水的商用 Hydro-link 电极用于通过头带上的预切孔捕获 EEG 信号。图 33.2.2 还显示了完全集成 SoC 的顶层图。多达 16 个可编程通道的 AFE 用于信号采集和数字化。 AFE 的每个通道包括一个增益为 45 至 72 dB、带宽为 0.05 至 400 Hz 的两级斩波放大器、一个转折频率为 60 Hz 的低通滤波器和一个工作频率为 128 Hz 至 10 kHz 的 8b SAR ADC。用于集成 AI 操作的数字核心包括一个 8×10 处理单元 (PE) 阵列、控制逻辑和相关存储库。带有专门开发的 ISA 的指令存储器为芯片的操作提供全局控制,以支持一系列思维意象任务。实时分类的大脑状态和思维控制命令通过外部蓝牙模块传输到 VR 耳机,以控制 VR 场景。虽然大多数现有研究仅关注固定数据流 [4] 和 CNN 模型 [2,3],但需要高度灵活的计算架构来支持各种思维意象任务。图 33.2.3 显示了专门开发的通用 ISA,用于数据流控制、模型配置、通道选择等。128b 的超宽 ISA 命令用于监督各种计算任务,例如 IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有很高的硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏性设置等)也集成到 ISA 中,以便高效地调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。 CNN、FC、DFT 和 IIR 滤波操作可以通过在不同数据流中重复使用相同的 PE 阵列来执行,例如,Conv 层的权重固定,或 FC 层和 DFT 的输出固定。与使用大量流水线触发器的传统脉动阵列不同,此设计有意移除了大部分或 O1/O2/PZ 用于稳态视觉诱发电位 (SSVEP)。通道数的减少导致三个主要任务的平均准确度略有下降(从 90.4% 降至 85.2%),但显著提高了用户体验和可用性。使用带有生理盐水的商用 Hydro-link 电极通过头带上的预切孔捕获 EEG 信号。图 33.2.2 还显示了完全集成 SoC 的顶层图。最多 16 个可编程 AFE 通道用于信号采集和数字化。AFE 的每个通道包括一个增益为 45 至 72dB 和带宽为 0.05 至 400Hz 的两级斩波放大器、一个转折频率为 60Hz 的低通滤波器和一个工作频率为 128Hz 至 10kHz 的 8b SAR ADC。集成 AI 操作的数字核心包括 8×10 处理单元 (PE) 阵列、控制逻辑和相关存储库。带有专门开发的 ISA 的指令存储器为芯片的操作提供全局控制,以支持一系列思维想象任务。实时分类的大脑状态和思维控制命令通过外部蓝牙模块传输到 VR 耳机,以控制 VR 场景。虽然大多数现有工作仅关注固定数据流 [4] 和 CNN 模型 [2,3],但需要高度灵活的计算架构来支持各种思维想象任务。图 33.2.3 显示了专门开发的用于数据流控制、模型配置、通道选择等的通用 ISA。128b 的超宽 ISA 命令用于监督各种计算任务,例如 IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有高硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏度设置等)也集成到 ISA 中,以便高效地调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。CNN、FC、DFT 和 IIR 滤波操作可以通过在不同数据流中重复使用相同的 PE 阵列来执行,例如,Conv 层的权重固定,或 FC 层和 DFT 的输出固定。与使用大量流水线触发器的传统收缩阵列不同,此设计有意消除了大部分或 O1/O2/PZ 用于稳态视觉诱发电位 (SSVEP)。通道数的减少导致三个主要任务的平均准确度略有下降(从 90.4% 降至 85.2%),但显著提高了用户体验和可用性。使用带有生理盐水的商用 Hydro-link 电极通过头带上的预切孔捕获 EEG 信号。图 33.2.2 还显示了完全集成 SoC 的顶层图。最多 16 个可编程 AFE 通道用于信号采集和数字化。AFE 的每个通道包括一个增益为 45 至 72dB 和带宽为 0.05 至 400Hz 的两级斩波放大器、一个转折频率为 60Hz 的低通滤波器和一个工作频率为 128Hz 至 10kHz 的 8b SAR ADC。集成 AI 操作的数字核心包括 8×10 处理单元 (PE) 阵列、控制逻辑和相关存储库。带有专门开发的 ISA 的指令存储器为芯片的操作提供全局控制,以支持一系列思维想象任务。实时分类的大脑状态和思维控制命令通过外部蓝牙模块传输到 VR 耳机,以控制 VR 场景。虽然大多数现有工作仅关注固定数据流 [4] 和 CNN 模型 [2,3],但需要高度灵活的计算架构来支持各种思维想象任务。图 33.2.3 显示了专门开发的用于数据流控制、模型配置、通道选择等的通用 ISA。128b 的超宽 ISA 命令用于监督各种计算任务,例如 IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有高硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏度设置等)也集成到 ISA 中,以便高效地调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。CNN、FC、DFT 和 IIR 滤波操作可以通过在不同数据流中重复使用相同的 PE 阵列来执行,例如,Conv 层的权重固定,或 FC 层和 DFT 的输出固定。与使用大量流水线触发器的传统收缩阵列不同,此设计有意消除了大部分AFE 的每个通道包括一个增益为 45 至 72 dB、带宽为 0.05 至 400 Hz 的两级斩波放大器、一个转折频率为 60 Hz 的低通滤波器和一个工作频率为 128 Hz 至 10 kHz 的 8b SAR ADC。用于集成 AI 操作的数字核心包括一个 8×10 处理单元 (PE) 阵列、控制逻辑和相关存储库。带有专门开发的 ISA 的指令存储器为芯片的操作提供全局控制,以支持一系列思维意象任务。实时分类的大脑状态和思维控制命令通过外部蓝牙模块传输到 VR 耳机,以控制 VR 场景。虽然大多数现有研究仅关注固定数据流 [4] 和 CNN 模型 [2,3],但需要高度灵活的计算架构来支持各种思维意象任务。图 33.2.3 显示了专门开发的通用 ISA,用于数据流控制、模型配置、通道选择等。128b 的超宽 ISA 命令用于监督各种计算任务,例如 IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有很高的硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏性设置等)也集成到 ISA 中,以便高效地调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。 CNN、FC、DFT 和 IIR 滤波操作可以通过在不同数据流中重复使用相同的 PE 阵列来执行,例如,Conv 层的权重固定,或 FC 层和 DFT 的输出固定。与使用大量流水线触发器的传统脉动阵列不同,此设计有意移除了大部分AFE 的每个通道包括一个增益为 45 至 72 dB、带宽为 0.05 至 400 Hz 的两级斩波放大器、一个转折频率为 60 Hz 的低通滤波器和一个工作频率为 128 Hz 至 10 kHz 的 8b SAR ADC。用于集成 AI 操作的数字核心包括一个 8×10 处理单元 (PE) 阵列、控制逻辑和相关存储库。带有专门开发的 ISA 的指令存储器为芯片的操作提供全局控制,以支持一系列思维意象任务。实时分类的大脑状态和思维控制命令通过外部蓝牙模块传输到 VR 耳机,以控制 VR 场景。虽然大多数现有研究仅关注固定数据流 [4] 和 CNN 模型 [2,3],但需要高度灵活的计算架构来支持各种思维意象任务。图 33.2.3 显示了专门开发的通用 ISA,用于数据流控制、模型配置、通道选择等。128b 的超宽 ISA 命令用于监督各种计算任务,例如 IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有很高的硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏性设置等)也集成到 ISA 中,以便高效地调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。 CNN、FC、DFT 和 IIR 滤波操作可以通过在不同数据流中重复使用相同的 PE 阵列来执行,例如,Conv 层的权重固定,或 FC 层和 DFT 的输出固定。与使用大量流水线触发器的传统脉动阵列不同,此设计有意移除了大部分IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有很高的硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏度设置等)也集成到 ISA 中,以便高效调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。可以通过在不同数据流中重用相同的 PE 阵列来专门执行 CNN、FC、DFT 和 IIR 滤波操作,例如,Conv 层的权重平稳,或 FC 层和 DFT 的输出平稳。与传统的脉动阵列不同,该设计特意移除了大部分IIR 滤波器、卷积 (Conv) 层、离散傅里叶变换 (DFT) 和全连接 (FC) 层,具有很高的硬件效率。为了支持不断变化的 AI 模型,每个子任务的配置(例如内核数量、层数、分支目标地址 (BTA)、稀疏度设置等)也集成到 ISA 中,以便高效调度和执行不同的任务。图 33.2.3 还显示了数字神经处理器的详细架构。8×10 PE 阵列可以灵活地按行或列打开或关闭。可以通过在不同数据流中重用相同的 PE 阵列来专门执行 CNN、FC、DFT 和 IIR 滤波操作,例如,Conv 层的权重平稳,或 FC 层和 DFT 的输出平稳。与传统的脉动阵列不同,该设计特意移除了大部分