• 人工智能 (AI) 在预测分析中的应用 • 开发基于 FPGA/Arduino 的运行 AI 的嵌入式系统 • 撰写嵌入式 AI 领域的科学项目、技术文档 • 使用 TVM-VTA、TinyML 平台等硬件加速器 • 创建基于 AI 的项目 - KIRETT、LIFETIME、HARS、IRIS、CareEpi、MAPS • 指导学生(4 篇硕士论文、1 篇学士论文、4 个硕士项目,目前有 2 名博士生担任联合导师)理论电气工程与微电子研究所硕士生
超低功耗的高性能终端 AI 解决方案 WE-I Plus 处理器旨在适应多种 TinyML 神经网络模型,具有可编程 DSP,运行时钟频率高达 400MHz,内部 SRAM 为 2MB。WE-I Plus 支持 TensorFlow Lite 微控制器框架,能够运行推理,例如开源 Google 示例,包括“Hello World”、“Micro Speech”、“Person Detection”和“Magic Wand”,所有这些都可以在 Google 的 Github 上找到。它在计算机视觉应用中进行了全面优化,并且已证明使用“Person Detection”示例的功耗最低。WE-I Plus 与 Himax 的 VGA 传感器相结合,运行示例推理,功耗低至 2.5mW,模型推理时间少于 35 毫秒。 SparkFun 上适用于 TinyML 开发人员的终端 AI 开发板开发人员现在可以轻松访问 Himax 的领先技术,SparkFun 在线零售商店提供 WE-I Plus EVB,用于终端 AI 系统开发,最终实现改变生活的用例的创新。一体式 WE-I Plus EVB 包括 AI 处理器、HM0360 AoS VGA 摄像头、2 个麦克风和一个 3 轴加速度计,可执行视觉、语音和振动检测和识别。它内置 FTDI USB-SPI/I2C/UART 桥接器,用于闪存编程接口和消息/调试打印/元数据输出。它还具有两个 LED 来显示分类结果。此外,还提供带有 I2C 和 GPIO 接口的扩展头,以允许连接到外部传感器或设备。EVB、处理器和传感器的数据表可在 SparkFun 网站上下载。 Himax WE-I Plus EVB/Endpoint AI Development Board 在 SparkFun 的参考链接 https://www.SparkFun.com/products/17256
机器学习 (ML) 曾经是少数幸运儿的专属领域,他们拥有工具和资源来构建酷炫的东西。幸运的是,随着各种尺寸设备上计算能力的增长、开源工具的出现以及对隐私和个性化信息的更严格要求和意识的融合,我们看到 ML 逐渐成为主流,所有这些都汇聚在一起,形成了一个蓬勃发展的生态系统。联合机器学习等技术允许 ML 模型为敏感信息提供隐私。TinyML 领域允许模型在资源受限的设备上执行,将推理转移到边缘,这既释放了资源,又提高了敏感数据的隐私。特征存储为应用程序开发提供了与模型-视图-控制器设计模式类似的优势,允许更清晰地分离数据管理、模型训练和推理之间的关注点。诸如稳定扩散之类的公开可用模型既突出了机器学习的惊人能力,也突出了对源数据和道德的关注。ML 组件也比以往任何时候都更容易连接在一起,从而可以通过创造性地组合自定义业务模型和功能强大的通用模型来构建 ML 体验和解决方案。我们对这一领域的新功能表示赞赏,并热切期待未来的进步。
摘要 — 在能源和资源受限的可穿戴设备上自动识别健身活动消除了激烈健身期间的人机交互要求 - 例如轻触敲击和滑动。这项工作提出了一个微型且高精度的残差卷积神经网络,它在毫瓦微控制器中运行,用于自动锻炼分类。我们在三个资源受限的设备上评估了带量化的深度模型的推理性能:两个带有 ARM-Cortex M4 和 M7 内核的来自 ST Microelectronics 的微控制器,以及一个 GAP8 片上系统,后者是来自 Green-Waves Technologies 的开源多核 RISC-V 计算平台。实验结果表明,在全精度推理下,十一项锻炼识别的准确率高达 90.4%。本文还介绍了资源受限系统的权衡性能。在保持识别准确率(88.1%)和最小损失的同时,每次推理仅需要 3 s。得益于 8 个 RISC-V 集群核心,GAP8 上每次推理只需 2 毫秒。我们测量发现,它的执行时间比 Cortex-M4 和 Cortex-M7 核心快 18.9 倍和 6.5 倍,表明基于所述数据集以 20 H z 采样率进行实时板载锻炼识别的可行性。在最大时钟频率下,GAP8 上每次推理消耗的能量为 0.41 m J,而 Cortex-M4 上为 5.17 m J,Cortex-M7 上为 8.07 m J。当系统使用电池供电时,它可以延长电池寿命。我们还引入了一个开放数据集,该数据集由从十个受试者收集的 50 个 11 个健身房锻炼课程组成,可公开获取。索引术语 — 锻炼识别、健身房识别、锻炼分类、边缘计算、TinyML、PULP
推动将计算推向“边缘” [2]的力。这些移动应用程序中有许多属于物联网(IoT)的类别,该领域由智能传感设备主导,主要对传感器数据进行推断[9]。诸如此类的部署根本不(理想情况下,不应该)需要云计算资源;一项需要非平凡的能源访问的服务。永恒的工程挑战一直在了解我们如何从移动设备中获得最大收益。我们可以为最少的功率做什么最大的有用计算?这种类型的性能最大化涉及硬件和软件优化。在硬件方面,最有影响力的设计选择之一是目标计算机。具有应用程序代理的成熟的多核系统可能会提供最佳的原始速度,但在大规模上可能是功率且昂贵的。大多数物联网部署都选择更节能的核心,以更低的绩效以提高可持续性。历史上降级为简单的8和16位机器,最新一代的MCU看到了向更有能力的32位处理器的过渡,ARM Cortex-M家族是最受欢迎的。这些以数十MHz运行的单核系统可能坐在计算性能梯子的底部,但它们在发电效率上是无与伦比的。弄清楚如何运行现代边缘计算工作 - 即。mL推断)近年来对资源受限的MCU一直是一个积极的研究领域。能量自2019年以来,这个概念已被称为Tinyml,该概念试图打开“在超低功率(<1MW)MCU上执行优化的ML模型,并以最小的功率征服” [4]。MCU级设备通常使用<100KB的内存和1-2MB的闪存存储运行。能够执行相同的ML任务,该任务将在MCU上的多核系统上运行,这是非常强大的。
● VLSI 电路和设计:ASIC 和 FPGA 设计、微处理器/微架构、嵌入式处理器、高速/低功耗电路、模拟/数字/混合信号系统、NoC、SoC、物联网、互连、存储器、仿生和神经形态电路和系统、BioMEM、片上实验室、生物传感器、生物和生物医学系统的 CAD 工具、植入式和可穿戴设备、VLSI 设计和优化的机器学习●物联网和智能系统:物联网和智能系统的电路、计算、处理和设计,如智慧城市、智能医疗、智能交通、智能电网等;信息物理系统、边缘计算、物联网机器学习、TinyML。 ● 计算机辅助设计 (CAD):硬件/软件协同设计、高级综合、逻辑综合、仿真和形式验证、布局、可制造设计、算法和复杂性分析、物理设计(布局、布线、CTS)、静态时序分析、信号和电源完整性、CAD 和 EDA 设计的机器学习。● 测试、可靠性、容错:数字/模拟/混合信号测试、可靠性、稳健性、静态/动态缺陷和故障可恢复性、变化感知设计、学习辅助测试。● 新兴计算和后 CMOS 技术:纳米技术、量子计算、近似和随机计算、传感器和传感器网络、后 CMOS VLSI。● 硬件安全:可信 IC、IP 保护、硬件安全原语、逆向工程、硬件木马、侧信道分析、CPS/IoT 安全、硬件安全的机器学习。 ● 机器学习和人工智能的 VLSI:机器学习的硬件加速器、深度学习的新架构、脑启发计算、大数据计算、强化学习、物联网 (IoT) 设备的云计算。微电子系统教育研讨会:为期一天的联合研讨会将涵盖以下主题:使用 ASIC、FPGA、多核、GPU、TPU 等各种技术的教学创新、包括新课程和实验室在内的教育技术、评估方法、远程学习、教科书和设计项目、行业和学术合作计划和教学。
一、问题和动机物联网 (IoT) 促进了许多利用基于边缘的机器学习 (ML) 方法来分析本地收集的数据的应用。不幸的是,流行的 ML 算法通常需要超出当今物联网设备能力的密集计算。受大脑启发的超维计算 (HDC) 已被引入以解决这个问题。然而,现有的 HDC 使用静态编码器,需要极高的维数和数百次训练迭代才能达到合理的准确度。这导致了巨大的效率损失,严重阻碍了 HDC 在物联网系统中的应用。我们观察到一个主要原因是现有 HDC 的编码模块缺乏利用和适应训练期间学习到的信息的能力。相比之下,如图 1(a) 所示,人类大脑中的神经元一直在动态再生,并在学习新信息时提供更有用的功能 [1]。虽然 HDC 的目标是利用随机生成的基础超向量的高维性来将信息表示为神经活动的模式,但现有的 HDC 仍然很难支持与大脑神经再生类似的行为。在这项工作中,我们提出了动态 HDC 学习框架,可以识别和再生不需要的维度,以在显著降低维数的情况下提供足够的准确性,从而加速训练和推理。 II. 背景和相关工作 A. 物联网和基于边缘的学习 许多新颖的框架和库已经开发出来,以在资源受限的计算平台上定制流行的 ML 算法,包括 TinyML [2]、TensorFlow Lite [3]、edge-ml [4]、X-Cube-AI [5] 等。然而,这些学习方法通常需要大量的训练样本和多个训练周期,超出了当今物联网设备的能力。同时,利用目标平台的学习结构和特性,研究人员提出了许多提高基于边缘的学习效率的技术,例如分割计算 [6]、联邦学习 [7]、[8]、知识蒸馏 [9]。这些技术与我们的方法正交,可以与我们的方法集成,以进一步提高学习性能。
●VLSI电路和设计:ASIC和FPGA设计,微处理器/微观构造,嵌入式处理器,高速/低功率电路,模拟/数字/混合信号系统,NOC,SOC,SOC,SOC,IOT,IOT,IOT,IOT,IOT,IOT,IOT,IOT,互连,记忆,生物启动和神经循环循环和系统循环,循环循环和系统,循环循环和系统循环,以及系统循环,循环和系统循环,以及循环循环,以及循环循环,以及循环循环循环和系统综合,生物传感器,生物学和生物医学系统的CAD工具,可植入和可穿戴设备,用于VLSI设计和优化的机器学习●IoT和智能系统:物联网的电路,计算,处理和设计以及智能城市,智能城市,智能医疗保健,智能运输,智能Grid>>;网络物理系统,边缘计算,物联网的机器学习,tinyml。●计算机辅助设计(CAD):硬件/软件共同设计,高级合成,逻辑合成,仿真和正式验证,布局,制造,算法和复杂性分析,物理设计(位置,路线,CTS),静态时间和电源分析,信号和电源的稳定性,信号和电源,用于CAD和EDA设计。●测试,可靠性,容错:数字/模拟/混合信号测试,可靠性,鲁棒性,静态/动态缺陷和故障可追溯性,变异感知设计,学习辅助测试。●新兴计算和频率后技术:纳米技术,量子计算,近似和随机计算,传感器和传感器网络,CMOS后VLSI。●硬件安全性:可信赖的IC,IP保护,硬件安全原始图,逆向工程,硬件木马,侧通道分析,CPS/IOT安全性,用于HW Security的机器学习。●用于机器学习和人工智能的VLSI:用于机器学习的硬件加速器,用于深度学习的新型体系结构,脑力启发的计算,大数据计算,强化学习,云计算的云计算(IOT)设备。●微电体系统教育:使用ASIC,FPGA,Multicore,GPU,TPU等多种技术的教学创新,包括新课程和实验室,评估方法,远程学习,教科书,教科书,行业和学术项目,工业和学术协作计划和教学的教育技术。