摘要 — 训练后量化 (PTQ) 是一种用于优化和减少机器学习模型的内存占用和计算要求的技术。它主要用于神经网络。对于完全可移植且可在各种情况下使用的脑机接口 (BCI),有必要提供存储和计算量轻量级的方法。在本文中,我们提出对脑机接口中最先进的方法进行训练后量化的评估,并评估其对准确性的影响。我们评估了代表一个主要 BCI 范式的事件相关电位单次检测的性能。当在空间滤波器和分类器上应用 PTQ 时,受试者工作特征曲线下面积从 0.861 下降到 0.825,同时将模型的大小减少了约 × 15。结果支持以下结论:PTQ 可以显着减少模型的内存占用,同时保持大致相同的准确度。
摘要 — 目标:认知工作负荷监控 (CWM) 可通过考虑操作员的认知状态来支持任务执行协助,从而增强人机交互。因此,我们提出了一种机器学习设计方法和数据处理策略,以在资源受限的可穿戴设备上实现 CWM。方法:我们的 CWM 解决方案基于边缘计算构建,该系统基于简单的可穿戴系统,只有四个脑电图 (EEG) 外围通道。我们根据来自 24 名志愿者的实验数据评估了我们的解决方案。此外,为了克服系统的内存限制,我们采用了一种优化策略来减小模型大小,并采用了多批次数据处理方案来优化 RAM 内存占用。最后,我们在最先进的可穿戴平台上实施了我们的数据处理策略,并评估了其执行情况和系统电池寿命。结果:我们对未见数据的 CWM 分类实现了 74.5% 的准确率和 74.0% 的灵敏度和特异性几何平均值。此外,与使用默认参数生成的模型相比,所提出的模型优化策略生成的模型小 27.5 倍,与单批数据处理相比,多批数据处理方案将 RAM 内存占用减少了 14 倍。最后,我们的算法仅使用 1.28% 的可用处理时间,从而使我们的系统实现了 28.5 小时的电池寿命。结论:我们提供了一种使用可穿戴设备的可靠且优化的 CWM 解决方案,
输出前缀:[] 最小热身运行次数:[1] 最小热身运行持续时间(秒):[0.5] 图表:[mobilenet_quant_v1_224.tflite] 输入层:[] 输入形状:[] 输入值范围:[] 输入层值文件:[] 允许 fp16:[0] 要求完全委派:[0] 启用 op 分析:[0] 最大分析缓冲区条目:[1024] 用于导出分析数据的 CSV 文件:[] 最大委派分区数:[0] 加载模型 mobilenet_quant_v1_224.tflite 输入模型文件大小(MB):4.2761 初始化会话用时 29.969 毫秒。运行基准测试至少 1 次迭代和至少 0.5 秒,但如果超过 150 秒则终止。 count=6 first=87280 curr=84477 min=84477 max=87280 avg=85015.3 std=1015 运行基准测试至少 50 次迭代和至少 1 秒,但如果超过 150 秒则终止。count=50 first=84593 curr=84484 min=84441 max=85168 avg=84582.6 std=148 平均推理时间(单位:美元):热身:85015.3,初始化:29969,推理:84582.6 注意:由于基准测试工具本身会影响内存占用,以下内容仅是模型在运行时实际内存占用的近似值。请自行判断。峰值内存占用(MB):init=7.03516 Overall=8.96875
摘要 — 本文介绍了一种准确而强大的嵌入式运动想象脑机接口 (MI-BCI)。所提出的新模型基于 EEGNet [1],可满足 ARM Cortex-M 系列等低功耗微控制器单元 (MCU) 的内存占用和计算资源要求。此外,本文还提出了一组方法,包括时间下采样、通道选择和缩小分类窗口,以进一步缩小模型以放宽内存要求,同时几乎不影响准确度。在 Physionet EEG 运动/图像数据集上的实验结果表明,标准 EEGNet 在全局验证中对 2 类、3 类和 4 类 MI 任务的分类准确率分别为 82.43%、75.07% 和 65.07%,比最先进的 (SoA) 卷积神经网络 (CNN) 分别高出 2.05%、5.25% 和 6.49%。我们的新方法进一步缩小了标准 EEGNet,精度损失为 0.31%,内存占用减少了 7.6 倍,精度损失为 2.51%,减少了 15 倍。缩放后的模型部署在商用 Cortex-M4F MCU 上,运行最小模型需要 101 毫秒,每次推理消耗 4.28 mJ,在 Cortex-M7 上运行中等模型需要 44 毫秒,每次推理消耗 18.1 mJ,从而实现了完全自主、可穿戴、准确的低功耗 BCI。索引术语 — 脑机接口、运动意象、CNN、嵌入式系统、边缘计算
主题:电路与系统,例如多维非线性系统、大规模集成电路、电力网络等,在从基础科学理论到各种实际应用的整个过程中发挥着重要作用。随着应用需求的不断增长,通过高效学习、设计优化和集成实现,开发高精度、高稳定性、高灵活性和高安全性的电路与系统至关重要。随着人工智能(AI)的快速发展,电路与系统与人工智能在理论和应用上相辅相成。一方面,人工智能驱动下的电路与系统的高效学习、设计优化和集成实现研究得到了长足的发展,其中节能电路与系统有着非常广泛的应用,包括电力负荷预测、光伏/电池系统协调控制、图像/视频/音频处理、脑机接口等;另一方面,人工智能应用于实际应用也离不开高效低功耗计算的电路与系统的优化与实现。 1)从高效学习的角度,基于DNN进行电路与系统的信号处理、动态建模和非线性分析是一种可行、有效的方法。2)从设计优化的角度,目前的电路设计面临着内存占用和功耗方面的挑战。因此,迫切需要开发人工智能驱动的电路与系统设计优化,以确保以更少的内存占用、更高的能效和更快的计算速度执行复杂的计算。3)从集成实现的角度,电路与系统的硬件和软件实现都需要考虑利用率、适应性和兼容性。总的来说,通过人工智能驱动的高级学习、优化和实现,可以实现低功耗实时运行的高效电路和系统,以实现更广泛的应用。所有这些及时的重要主题都属于本特刊的讨论范围。
摘要 — 使用低成本光电容积描记法 (PPG) 传感器,越来越多地在腕戴式设备中执行心率 (HR) 监测。然而,由受试者手臂运动引起的运动伪影 (MA) 会影响基于 PPG 的心率跟踪的性能。这通常通过将 PPG 信号与惯性传感器的加速度测量相结合来解决。不幸的是,大多数此类标准方法都依赖于手动调整的参数,这会削弱它们的泛化能力及其对现场真实数据的适用性。相比之下,基于深度学习的方法尽管具有更好的泛化能力,但被认为过于复杂,无法部署在可穿戴设备上。在这项工作中,我们解决了这些限制,提出了一种设计空间探索方法来自动生成丰富的深度时间卷积网络 (TCN) 系列用于心率监测,所有这些网络都来自单个“种子”模型。我们的流程涉及两个神经架构搜索 (NAS) 工具和一个硬件友好的量化器的级联,它们的组合可以产生高度准确和极其轻量级的模型。在 PPG-Dalia 数据集上进行测试时,我们最准确的模型在平均绝对误差方面创下了新的最高水平。此外,我们将 TCN 部署在具有 STM32WB55 微控制器的嵌入式平台上,证明了它们适合实时执行。我们最准确的量化网络实现了 4.41 每分钟 (BPM) 的平均绝对误差 (MAE),能耗为 47.65 mJ,内存占用为 412 kB。同时,在我们的流程生成的网络中获得 MAE < 8 BPM 的最小网络的内存占用为 1.9 kB,每次推理仅消耗 1.79 mJ。
摘要 受大脑启发的超维 (HD) 计算是一种新的机器学习方法,它利用简单且高度可并行化的操作。不幸的是,迄今为止已发布的 HD 计算算法都无法准确地对更复杂的图像数据集(例如 CIFAR100)进行分类。在这项工作中,我们提出了 HDnn-PIM,它通过使用内存处理实现复杂图像的特征提取和基于 HD 的分类。我们将 HDnn-PIM 与各种图像数据集的纯 HD 和 CNN 实现进行了比较。与纯 HD 计算相比,HDnn-PIM 的准确率提高了 52.4%。与最先进的 CNN 相比,它的准确率也提高了 1.2%,但内存占用减少了 3.63 倍,MAC 操作减少了 1.53 倍。此外,HDnn-PIM 比 RTX 3090 GPU 快 3.6 倍 –223 倍,比最先进的 FloatPIM 能效高 3.7 倍 [5]。
摘要 — 我们提出了一种回声状态网络 (ESN) 的近似方法,该方法可以基于超维计算数学在数字硬件上有效实现。所提出的整数 ESN (intESN) 的储存器是一个仅包含 n 位整数的向量(其中 n < 8 通常足以获得令人满意的性能)。循环矩阵乘法被高效的循环移位运算取代。所提出的 intESN 方法已通过储存器计算中的典型任务进行验证:记忆输入序列、对时间序列进行分类以及学习动态过程。这种架构可显著提高内存占用和计算效率,同时将性能损失降至最低。在现场可编程门阵列上的实验证实,所提出的 intESN 方法比传统 ESN 更节能。
在本文中,我们介绍了一种新的几何深度学习模型 CorticalFlow,该模型通过给定一张三维图像来学习将参考模板变形为目标对象。为了保留模板网格的拓扑属性,我们通过一组微分同胚变换来训练我们的模型。这种新的流常微分方程 (ODE) 框架实现受益于小型 GPU 内存占用,可以生成具有数十万个顶点的曲面。为了减少由其离散分辨率引入的拓扑误差,我们推导出可改善预测三角网格流形性的数值条件。为了展示 CorticalFlow 的实用性,我们展示了它在大脑皮层表面重建这一具有挑战性的任务中的表现。与目前最先进的技术相比,CorticalFlow 可以生成更优质的曲面,同时将计算时间从 9 分半钟缩短到 1 秒。更重要的是,CorticalFlow 强制生成解剖学上合理的曲面;它的缺失一直是限制此类表面重建方法临床意义的主要障碍。
摘要 — 葡萄叶锈病是最常见的葡萄叶病之一,严重影响葡萄产量,导致全球葡萄产量损失 20%-40%。因此,及时有效地识别该病害有助于制定早期治疗方法,以控制其蔓延并减少经济损失。为此,近年来,人们广泛研究了使用计算机视觉和机器学习技术识别植物疾病。本文旨在提出一种基于高性能卷积神经网络 (CNN) 的图像检测器,该检测器在低成本、低功耗平台上实现,以实时监测葡萄叶锈病。为了满足嵌入式系统典型的严格约束,我们开发了一种基于 CANDECOMP/PARAFAC (CP) 张量分解的新型低秩 CNN 架构 (LR-Net)。这样获得的压缩 CNN 网络已在特定数据集上进行了训练,并在低功耗、低成本的 Python 可编程机器视觉相机中实现,以进行实时分类。进行了大量的实验,结果表明 LR-Net 在推理时间和内存占用方面都优于最先进的网络。