视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
大型语言模型 (LLM) 极大地推进了自然语言处理范式。然而,高计算负荷和巨大的模型大小对在边缘设备上的部署提出了巨大挑战。为此,我们为 LLM 提出了 APTQ(注意感知训练后混合精度量化),它不仅考虑了每层权重的二阶信息,而且首次考虑了注意输出对整个模型的非线性影响。我们利用 Hessian 迹作为混合精度量化的敏感度指标,确保在保留模型性能的情况下进行明智的精度降低。实验表明,APTQ 超越了之前的量化方法,在 C4 数据集中实现了平均 4 位宽度和 5.22 困惑度,几乎相当于全精度。此外,APTQ 在 LLaMa-7B 和 LLaMa-13B 中分别以平均 3.8 的位宽实现了 68.24% 和 70.48% 的最佳零样本准确率,证明了其生成高质量量化 LLM 的有效性。
摘要 — 量化通常用于深度神经网络 (DNN),通过降低激活和权重(又称张量)的算术精度来减少存储和计算复杂度。高效的硬件架构采用线性量化,以便将最新的 DNN 部署到嵌入式系统和移动设备上。然而,线性均匀量化通常无法将数值精度降低到 8 位以下,而不会牺牲模型精度方面的高性能。性能损失是由于张量不遵循均匀分布。在本文中,我们表明大量张量符合指数分布。然后,我们提出 DNA-TEQ 以自适应方案对 DNN 张量进行指数量化,以在数值精度和精度损失之间实现最佳权衡。实验结果表明,DNA-TEQ 提供的量化位宽比以前的方案低得多,平均压缩率比线性 INT8 基线高出 40%,准确度损失可以忽略不计,并且无需重新训练 DNN。此外,DNA-TEQ 在指数域中执行点积运算方面处于领先地位。对于一组广泛使用的 DNN,与基于 3D 堆叠内存的基线 DNN 加速器相比,DNA-TEQ 平均可提供 1.5 倍的加速和 2.5 倍的节能。索引术语 —DNN、量化、指数、Transformer
我们考虑在具有挑战性的一声/训练后设置中,深度神经网络(DNN)的模型压缩问题,在该设置中,我们将获得一个准确的训练有素的模型,并且必须仅基于少量校准输入数据而无需进行任何重新训练。鉴于新兴软件和硬件支持,该问题已变得很流行,以通过加速进行修剪和/或量化来执行模型,并且已经针对两种压缩方法独立提出了良好的表现解决方案。在本文中,我们引入了一个新的压缩框架,该框架涵盖了在统一的环境中涵盖重量修剪和量化的,这是时间和空间效果,并且在现有后训练方法的实际性能上大大提高。在技术层面上,我们的方法基于[Lecun,Denker和Solla,1990]的经典最佳脑外科医生(OBS)框架的精确而有效的实现,以涵盖现代DNNS规模的体重量化。从实际的角度来看,我们的实验结果表明,它可以在现有训练后方法的压缩准确性权衡方面显着改善,并且它可以在培训后环境中启用修剪和量化的准确复合应用。
绝缘子是输电线路的重要设备,绝缘子覆冰会严重影响输电线路的稳定运行,因此绝缘子覆冰状态监测对电力系统的安全稳定运行具有重要意义。因此,本文提出了一种面向前端覆冰监测装置的轻量级绝缘子覆冰厚度智能识别方法。该方法融合残差网络(ResNet)与特征金字塔网络(FPN)构建多尺度特征提取网络框架,使浅层特征与深层特征融合,减少信息损失,提高目标检测精度。然后采用全卷积神经网络(FCN)对覆冰绝缘子进行分类与回归,实现覆冰厚度的高精度识别。最后,通过模型量化对所提方法进行压缩,减少模型的大小和参数,以适应计算资源有限的结冰监测终端,并在边缘智能芯片上验证了该方法的性能,并与其他经典方法进行了比较。
摘要 - 脑启发的高维(HD)计算是一种新的计算范式,可以模仿高维空间中神经元的活性。HD计算中的第一个步骤是将每个数据点映射到高维空间(例如10,000)中,该空间需要计算原始域中每个数据元素的数千个操作。单独编码大约需要培训执行时间的80%。在本文中,我们提出,REHD,用于HD Computing中的编码,培训和推断的整个重做,以实现更硬件友好的实现。REHD包括用于HD计算的完全二进制编码模块,用于能量良好和高智能分类。我们基于随机投影的编码模块可以在硬件中有效地实现可预测的内存访问模式。REHD是第一个基于HD的方法,它提供了与原始数据1:1比率的数据投影,并启用使用二进制HyperVector进行所有培训/推理计算。在优化后,重新添加了编码过程,重新培训和推断成为HD计算的能源密集型部分。为解决此问题,我们还提出了模型量化。模型量化引入了一种新型的方法,该方法是使用n位存储类高量向量的方法,其中n范围为1至32,而不是以完整的32位精度,从而可以在能量效率和准确性之间进行折衷的细节调整。为了进一步提高REHD效率,我们开发了一种在线尺寸缩小方法,可以消除训练期间无效的高度向量维度。
电阻随机记忆(RRAM)由于其简单的金属 - 绝缘剂 - 金属(MIM)结构而计入最有希望的非挥发记忆技术。RRAM显示出诸如快速(<1 ns)[1]和低功率开关(每位1 pj),[2]高耐力(> 10 9个周期),[3]对电离辐射的弹性,[4]和出色的缩放能力低于10 Nm的能力。[5] Resistive switching has been observed in materials such as hafnium, tantalum, and yttrium oxide, [6–8] which are well- established materials in complementary metal oxide semiconductor (CMOS) tech- nology, making RRAM easily integrable in existing back-end-of-line Si technology, and thus, an interesting candidate for new emerging applications such as cybersecu- rity and neuromorphic计算。尤其是,由于自主驾驶,图像识别和深度学习等新兴领域,神经形态变得越来越重要。
将颅内大脑活动直接综合到声学语音可能为语音受损的用户提供直观而自然的沟通手段。在先前的研究中,我们使用了对数MEL量表语音谱图(LogMels)作为从电型(ECOG)记录到可听见波形的解码中的中间表示。mel-scar的语音谱图具有悠久的传统。过去,由于连续的特征空间,我们依靠回归方法来发现从大脑活动到LogMel光谱系数的映射。但是,回归任务是无限的,因此在综合声音语音信号中,脑活动中的神经元爆发可能导致异常高幅度。为了减轻这些问题,我们提出了两种量化功率值的方法,以分别使用中位数和逻辑公式分别降低复杂性和限制间隔的数量,从而分别使用中值和逻辑公式来离散对数的光谱系数的特征空间。我们通过基于线性判别分析的简单分类来评估一个参与者的概念证明,并评估了一个参与者,并通过原始语音限制了由此产生的波形。重构频谱图实现了Pearson相关系数,平均值为r = 0。5±0。11中的5倍交叉验证。索引术语:语言交流,语音合成,电代理,BCI
我们更进一步考虑学习神经网络分类的问题。在信息瓶颈 (IB) 原则下,我们将这个分类问题与表示学习问题联系起来,我们称之为“IB 学习”。我们表明,IB 学习实际上等同于量化问题的一个特殊类别。率失真理论的经典结果表明,IB 学习可以受益于“矢量量化”方法,即同时学习多个输入对象的表示。这种方法辅以一些变分技术,产生了一种用于使用神经网络模型进行分类的新颖学习框架“聚合学习”。在这个框架中,多个对象由单个神经网络联合分类。通过在标准图像识别和文本分类任务上的大量实验验证了该框架的有效性。