摘要 — 机器学习方法在通信系统中无处不在,并且已被证明在包括射频 (RF) 指纹识别、自动调制分类和通信系统中的信号恢复在内的应用中非常有效。然而,通信链路的高吞吐量要求使得 AI 模型难以在边缘设备上实时实现。在这项工作中,我们通过改进算法和硬件来解决此问题,以实现通信系统中的实时 AI 处理。对于算法开发,我们提出了第一个紧凑的深度网络,该网络由硅光子递归神经网络模型与简化的卷积神经网络分类器相结合组成,以通过随机传输来识别 RF 发射器。我们的模型在使用比现有最先进的 CNN 分类器 (Merchant et al., 2018) 少 50 倍的训练参数的情况下,在一组 30 个相同的 ZigBee 设备上实现了 96.32% 的分类准确率。由于网络规模大幅缩减,我们使用小型 FPGA 板 PYNQ-Z1 模拟系统,并演示了延迟为 0.219 毫秒的实时 RF 指纹识别。此外,在硬件实现方面,我们进一步演示了用于光纤非线性补偿的全集成硅光子神经网络(Huang et al.,2021),可将接收信号提高 0.60 dB。
联邦学习 (FL) 是一种新兴的机器学习技术,它支持跨数据孤岛或边缘设备进行分布式模型训练,而无需数据共享。然而,与集中式模型训练相比,FL 不可避免地会带来效率低下的问题,这将进一步增加未来机器学习本已很高的能耗和相关的碳排放。减少 FL 碳足迹的一种方法是根据电网中特定时间和地点可能出现的可再生过剩能源的可用性来安排训练作业。然而,面对如此不稳定且不可靠的资源,现有的 FL 调度程序无法始终确保快速、高效和公平的训练。我们提出了 FedZero,这是一个专门依靠可再生过剩能源和计算基础设施的闲置容量运行的 FL 系统,可有效地将训练的运营碳排放量降至零。通过利用能源和负荷预测,FedZero 通过选择客户端实现快速收敛和公平参与,从而利用过剩资源的时空可用性。我们基于实际的太阳和负载轨迹进行的评估表明,在上述约束条件下,FedZero 的收敛速度明显快于现有方法,同时消耗的能量更少。此外,它对预测误差具有很强的鲁棒性,可扩展到数万个客户端。
简要介绍了所提供的课程:神经形态计算是一个跨学科研究领域,涉及大脑启发的设备电路 - 系统 - 系统 - 系统 - 安装的共同设计和共同实施,以实现人工智能(AI)/机器学习(ML)任务,并且具有很高的能量效率。神经形态计算的可能应用是在边缘设备中实施AI,在这些设备中,数据需要非常快速处理并且能量预算非常紧张。Edge Healthcare,机器人技术和无线传感器网络被认为是一些此类Edge-AI应用程序。在本课程中,我们将介绍神经形态设备,电路,系统和算法设计的基本原理,并讨论这些抽象级别如何取决于其他抽象级别。鉴于该受试者的跨学科性质,材料物理学,模拟电路设计,ML算法甚至神经科学的初步背景将在课程中提供,以便学生可以更好地理解不同级别的抽象水平的不同神经形态设计原理。我们还将探索各种神经形态应用,例如Edge Healthcare和Robotics,这些应用是通过神经形态传感器从环境中获取的信号,然后神经形态电路和算法旨在快速处理这些信号,并具有高能量效率。
联邦学习 (FL) 是一种新兴的机器学习技术,它支持跨数据孤岛或边缘设备进行分布式模型训练,而无需数据共享。然而,与集中式模型训练相比,FL 不可避免地会带来效率低下的问题,这将进一步增加未来机器学习本已很高的能耗和相关的碳排放。减少 FL 碳足迹的一种方法是根据电网中特定时间和地点可能出现的可再生过剩能源的可用性来安排训练作业。然而,面对如此不稳定且不可靠的资源,现有的 FL 调度程序无法始终确保快速、高效和公平的训练。我们提出了 FedZero,这是一个专门依靠可再生过剩能源和计算基础设施的闲置容量运行的 FL 系统,可有效地将训练的运营碳排放量降至零。通过利用能源和负荷预测,FedZero 通过选择客户端实现快速收敛和公平参与,从而利用过剩资源的时空可用性。我们基于实际的太阳和负载轨迹进行的评估表明,在上述约束条件下,FedZero 的收敛速度明显快于现有方法,同时消耗的能量更少。此外,它对预测误差具有很强的鲁棒性,可扩展到数万个客户端。
视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
摘要 - 在移动医疗保健和远程诊断中,核分割是病理分析,诊断和分类的关键步骤,需要实时处理和高准确性。然而,核大小,模糊轮廓,不均匀染色,细胞聚类和重叠的细胞的变化阻碍了精确的分割。此外,现有的深度学习模型通常以增加复杂性的成本优先考虑准确性,从而使其不适合资源有限的边缘设备和现实世界部署。为了解决上述问题,我们提出了一个边缘感知的双分支网络,用于核实例分割。网络同时预测目标信息和目标轮廓。在网络中,我们提出了一个上下文融合块(CF-block),该融合块有效地从网络中提取和合并了上下文信息。加法 - 我们引入了一种后处理方法,该方法结合了目标信息和目标轮廓,以区分重叠的核并生成实例分割图像。进行了广泛的定量评估,以评估我们方法的性能。实验结果表明,与BNS,Monuseg和CPM-17数据集的最新方法相比,该方法的出色性能。索引术语 - 努塞鲁斯细分,移动医疗保健,实体细分,医学成像,双支分支网络
本文探讨了在迁移学习应用中使用神经网络修剪来实现更高效的推理。目标是将神经网络集中并优化在较小的专门目标任务上。随着物联网的出现,我们看到基于人工智能的移动和嵌入式设备(如可穿戴设备和其他智能设备)的应用大幅增加。然而,随着机器学习算法的复杂性和能力不断增加,由于这些设备上资源有限,这种向边缘的推进带来了新的挑战。需要某种形式的压缩才能让最先进的卷积神经网络在边缘设备上运行。在这项工作中,我们调整了现有的神经网络修剪方法,使它们能够专门化网络,使其仅关注最初训练的子集。这是一个迁移学习用例,我们优化大型预训练网络。这与标准优化技术不同,它允许网络忘记某些概念,并使网络的占用空间更小。我们比较了不同的修剪标准,包括可解释人工智能 (XAI) 领域的标准,以确定哪种技术可以实现尽可能小的网络,同时保持目标任务的高性能。我们的结果显示了在嵌入式设备上执行神经网络时使用网络专业化的好处,无论是否使用 GPU 加速。
术语“电信边缘”在这里需要解释一下。电信边缘计算(也称为电信边缘计算)——图 26 中所示的“远边缘网络”——是指由基本上尽可能靠近客户的微型数据中心执行的计算,但由电信公司拥有和运营,并在电信公司拥有的财产上。他们目前使用数据中心式的 AI 芯片(体积大、价格昂贵且耗电),但随着时间的推移,他们可能会开始采用我们在本章中讨论的一些相同类型的边缘 AI 芯片(消费者或企业)。然而,与边缘设备计算不同,电信边缘计算中使用的芯片位于电信网络的边缘,而不是实际的终端设备上。此外,并非所有电信边缘计算都是 AI 计算。据行业分析师称,电信边缘计算市场(所有类型的计算,而不仅仅是人工智能)的收入将在 2020 年达到 210 亿美元。这比 2019 年增长了 100% 以上,而且市场有望在 2021 年增长 50% 以上。7 该市场按类别的精确细分尚未公开,但分析师认为,人工智能部分在 2020 年可能仍处于相对新兴阶段,收入不超过 10 亿美元,或占电信边缘计算总支出的 5%。8
联邦学习 (FL) 是一种新兴的机器学习技术,它支持跨数据孤岛或边缘设备进行分布式模型训练,而无需数据共享。然而,与集中式模型训练相比,FL 不可避免地会带来效率低下的问题,这将进一步增加未来机器学习本已很高的能耗和相关的碳排放。减少 FL 碳足迹的一种方法是根据电网中特定时间和地点可能出现的可再生过剩能源的可用性来安排训练作业。然而,面对如此不稳定且不可靠的资源,现有的 FL 调度程序无法始终确保快速、高效和公平的训练。我们提出了 FedZero,这是一个专门依靠可再生过剩能源和计算基础设施的闲置容量运行的 FL 系统,可有效地将训练的运营碳排放量降至零。通过利用能源和负荷预测,FedZero 通过选择客户端实现快速收敛和公平参与,从而利用过剩资源的时空可用性。我们基于实际的太阳和负载轨迹进行的评估表明,在上述约束条件下,FedZero 的收敛速度明显快于现有方法,同时消耗的能量更少。此外,它对预测误差具有很强的鲁棒性,可扩展到数万个客户端。
摘要 - 已提出了无线贝叶斯神经网络(WBNNS),以解决能源效率和设计复杂性的问题,以在资源约束边缘设备中进行培训和分类。通过引入热激活的DNA致动器和磁性旋转旋转振荡器(STOS),WBNN能够从小型数据集中学习并解决过度拟合的问题,以实现准确的分类结果。为了有效地生成高斯变量,这项工作提出了电磁耦合的stos,可以固有地创建可编程频谱分布,以用于贝叶斯神经网络(BNNS)的变异推断。具体而言,通过使用最大量的高斯变量,与BNN进行单层将DNA折纸与STO进行单层整合的纳米级异质结构,以执行乘法和积累(MAC),包括:1)具有加权偏置电流的STOS,以将概率分布和生成振动范围设置为频率范围,通过频率进行频率范围,通过频率进行频率范围,以使oscilly oscill osscill频率通过频率进行频率范围。 (2)可以选择性地整合来自各种STO的无线信号以将接收到的能量转换为可编程磁场的DNA折纸。仿真结果表明,所提出的WBNN可以在消耗625 µW时获得高于96%的精度。