摘要 —运动想象脑机接口 (MI- BMI) 通过分析脑电图 (EEG) 记录的大脑活动,实现人脑与机器之间直接且可访问的通信。延迟、可靠性和隐私限制使得将计算转移到云端并不合适。实际使用案例需要可穿戴、电池供电且平均功耗低的设备以便长期使用。最近,出现了用于分类 EEG 信号的复杂算法,尤其是深度学习模型。虽然这些模型达到了出色的准确性,但由于其内存和计算要求,它们通常会超出边缘设备的限制。在本文中,我们展示了 EEGN ET 的算法和实现优化,EEGN ET 是一种适用于许多 BMI 范式的紧凑型卷积神经网络 (CNN)。我们将权重和激活量化为 8 位定点,4 类 MI 的准确度损失为 0.4%,可忽略不计,并利用其定制的 RISC-V ISA 扩展和 8 核计算集群,在 Mr. Wolf 并行超低功耗 (PULP) 片上系统 (SoC) 上实现了节能的硬件感知实现。通过我们提出的优化步骤,与单核分层基线实现相比,我们可以获得 64 倍的整体加速和高达 85% 的内存占用减少。我们的实现仅需 5.82 毫秒,每次推理消耗 0.627 mJ。凭借 21.0 GMAC/s/W,它的能效比 ARM Cortex-M7 上的 EEGN ET 实现(0.082 GMAC/s/W)高 256 倍。索引词——脑机接口、边缘计算、并行计算、机器学习、深度学习、运动意象。
摘要 — 通过表面肌电 (sEMG) 信号对手部运动进行分类是一种成熟的高级人机交互方法。然而,sEMG 运动识别必须处理基于 sEMG 控制的长期可靠性,这受到影响 sEMG 信号的可变性的限制。嵌入式解决方案会受到识别准确度随时间下降的影响,这使得它们不适合可靠的手势控制器设计。在本文中,我们提出了一种基于时间卷积网络 (TCN) 的完整的可穿戴级嵌入式系统,用于基于 sEMG 的稳健手势识别。首先,我们开发了一种新颖的 TCN 拓扑 (TEMPONet),并在基准数据集 (Ninapro) 上测试了我们的解决方案,实现了 49.6% 的平均准确率,比目前最先进的 (SoA) 好 7.8%。此外,我们设计了一个基于 GAP8(一种新型 8 核物联网处理器)的节能嵌入式平台。使用我们的嵌入式平台,我们收集了第二个 20 个会话数据集,以在代表最终部署的设置上验证系统。我们使用 TCN 获得了 93.7% 的平均准确率,与 SoA SVM 方法(91.1%)相当。最后,我们使用 8 位量化策略来适应处理器的内存限制,对在 GAP8 上实现的网络的性能进行了分析。我们达到了 4 倍更低的内存占用(460 kB),性能下降仅为 3% 的准确率。我们详细介绍了在 GAP8 平台上的执行情况,结果显示量化网络在 12.84 毫秒内执行单个分类,功率包络为 0.9 mJ,使其适合长寿命可穿戴设备部署。
摘要 — 低位宽量化神经网络 (QNN) 通过减少内存占用,支持在受限设备(如微控制器 (MCU))上部署复杂的机器学习模型。细粒度非对称量化(即,在张量基础上为权重和激活分配不同的位宽)是一种特别有趣的方案,可以在严格的内存约束下最大限度地提高准确性 [1]。然而,SoA 微处理器缺乏对子字节指令集架构 (ISA) 的支持,这使得很难在嵌入式 MCU 中充分利用这种极端量化范式。对子字节和非对称 QNN 的支持需要许多精度格式和大量的操作码空间。在这项工作中,我们使用基于状态的 SIMD 指令来解决这个问题:不是显式编码精度,而是在核心状态寄存器中动态设置每个操作数的精度。我们提出了一种基于开源 RI5CY 核心的新型 RISC-V ISA 核心 MPIC(混合精度推理核心)。我们的方法能够完全支持混合精度 QNN 推理,具有 292 种不同的操作数组合,精度为 16 位、8 位、4 位和 2 位,而无需添加任何额外的操作码或增加解码阶段的复杂性。我们的结果表明,与 RI5CY 上的基于软件的混合精度相比,MPIC 将性能和能效提高了 1.1-4.9 倍;与市售的 Cortex-M4 和 M7 微控制器相比,它的性能提高了 3.6-11.7 倍,效率提高了 41-155 倍。索引术语 —PULP 平台、嵌入式系统、深度神经网络、混合精度、微控制器
根据目标问题,最佳 ML 模型和支持生命周期 (E4) 的复杂性可能会有很大差异。对于较简单的问题,线性回归、较小的决策树和具有少量节点和层的简单神经网络 (NN) 就足够了。对于更复杂的问题,可能需要具有许多层和节点以及多个卷积层的大型决策树或深度神经网络 (DNN) 来实现所需的准确性。用于控制优化目标的 RL 方法和支持代理 (E7) 在学习新颖的 RAN 管理策略方面尤其有效。训练 RL 模型依赖于通过软件代理的反复试验进行主动探索,这在实时 RAN 系统中并不总是可行或合适的。为了帮助解决这个问题,并生成训练模型所需的数据量,我们在我们的软件推动器集中包含了模拟 (E6)。经过训练后,ML 模型可用于推理阶段(E3 的一部分),其中选择的数据被用作模型的输入,然后模型将产生一组预测、操作或规则,具体细节取决于 ML 算法类型。在 RAN 中,训练和推理阶段的硬件和软件要求可能大不相同。训练通常需要强大的中央处理单元或专用图形处理单元 (GPU) 硬件,具有大内存和数据存储。AI 软件平台(例如 TensorFlow、Keras 和 PyTorch)以及其他广泛的开源(E5)、通常基于 Python 的 ML 软件生态系统需要集成到软件工程流程中。在推理阶段,通过模型生命周期管理 (E4) 向 RAN 应用程序提供经过训练的模型(或多个模型)。对于延迟至关重要的 RAN 边缘应用,需要高效实现推理,具有低延迟、低功耗和内存占用,同时考虑目标硬件和软件架构的特性。我们的软件推动器与基于意图的管理解决方案完全兼容 [5]。