摘要 — 低位宽量化神经网络 (QNN) 通过减少内存占用,支持在受限设备(如微控制器 (MCU))上部署复杂的机器学习模型。细粒度非对称量化(即,在张量基础上为权重和激活分配不同的位宽)是一种特别有趣的方案,可以在严格的内存约束下最大限度地提高准确性 [1]。然而,SoA 微处理器缺乏对子字节指令集架构 (ISA) 的支持,这使得很难在嵌入式 MCU 中充分利用这种极端量化范式。对子字节和非对称 QNN 的支持需要许多精度格式和大量的操作码空间。在这项工作中,我们使用基于状态的 SIMD 指令来解决这个问题:不是显式编码精度,而是在核心状态寄存器中动态设置每个操作数的精度。我们提出了一种基于开源 RI5CY 核心的新型 RISC-V ISA 核心 MPIC(混合精度推理核心)。我们的方法能够完全支持混合精度 QNN 推理,具有 292 种不同的操作数组合,精度为 16 位、8 位、4 位和 2 位,而无需添加任何额外的操作码或增加解码阶段的复杂性。我们的结果表明,与 RI5CY 上的基于软件的混合精度相比,MPIC 将性能和能效提高了 1.1-4.9 倍;与市售的 Cortex-M4 和 M7 微控制器相比,它的性能提高了 3.6-11.7 倍,效率提高了 41-155 倍。索引术语 —PULP 平台、嵌入式系统、深度神经网络、混合精度、微控制器
摘要:联合学习(FL)是一个分布式范式,它使多个客户能够在不共享其敏感本地数据的情况下协作训练模型。在这种隐私敏感的环境中,同态加密(HE)通过对加密数据启用计算来起重要作用。这阻止了服务器在聚合过程中进行逆向工程模型更新,以推断私人客户数据,这是在医疗保健行业(患者conditions contions contementies contementies contementions pmagemation is Pamentaint''的情况下的重要关注。尽管有这些进步,但FL仍容易受到培训阶段恶意参与者的知识产权盗窃和模型泄漏的影响。为了抵消这一点,水标作为保护深神经网络(DNNS)的知识产权的解决方案。但是,传统的水印方法与HE不兼容,这主要是因为它们需要使用非溶液功能,而HE并非本地支持。在本文中,我们通过提出单个同型加密模型上的第一个白色框DNN水印调制来解决这些挑战。然后,我们将此调制扩展到符合他处理约束的服务器端FL上下文。我们的实验结果表明,所提出的水印调制的性能等效于未加密域上的水印。
现场可编程门阵列(FPGA)被广泛用于本地加速深度神经网络(DNN)算法,具有高计算吞吐量和能效。虚拟化FPGA和在云端部署FPGA正成为越来越有吸引力的DNN加速方法,因为它们可以增强计算能力,实现跨多用户的按需加速。在过去的五年中,研究人员广泛研究了基于FPGA的DNN加速器的各个方向,例如算法优化、架构探索、容量改进、资源共享和云构建。然而,以前的DNN加速器调查主要集中于在本地FPGA上优化DNN性能,而忽略了将DNN加速器放置在云端FPGA中的趋势。在本研究中,我们深入研究了基于FPGA的DNN加速器中使用的技术,包括但不限于架构设计、优化策略、虚拟化技术和云服务。此外,我们还研究了 DNN 加速器的演进,例如从单个 DNN 到框架生成的 DNN、从物理到虚拟化 FPGA、从本地到云、从单用户到多租户。我们还确定了云端 DNN 加速的重大障碍。本文增强了对基于 FPGA 的 DNN 加速器演进的当前理解。
机器学习技术通常用于助听器领域,最常见的方法是识别不同类型的声学环境,尤其是在有语音的情况下。这些算法通常在外部计算机上进行训练,并在助听器中实施缩小版,仅受处理能力和助听器内存限制的限制。深度神经网络 (DNN) 是机器学习的一个子集,它为创建更复杂、更准确的算法提供了可能性。DNN 试图通过创建节点和层的网格来模仿大脑处理信息的方式,这些节点和层可以在经过广泛训练后解码信息。虽然 DNN 背后的概念无处不在,但它在不同品牌的助听器中并不一定以相同的方式实现。
重新设计软件以适应每个硬件平台具有限制性。开源和与平台无关的软件设计可实现在各种硬件平台上的互操作性,从而创建更灵活的开发者生态系统。
在本文中,我们提出了一种用于边缘系统的新设备类感知的修剪方法,即OCAP。背后的动机是,深度神经网络(DNN)模型通常经过大型数据集训练,以便他们可以学习更多的多样性功能并被概括以准确预测众多类别。一些作品表明某些功能(频道)仅与某些类有关。和边缘系统通常在系统检测到的特定环境中实现。结果,为特定边缘环境实施一般培训模型会导致不必要的冗余。同时,将一些数据和模型转移到云中以进行个性化会导致隐私问题。因此,我们可能有一种在设备上意识到的修剪方法来删除与类无关紧要的通道,而边缘系统主要观察到,从而减少了模型的浮点操作(拖放),记忆足迹,潜伏期,潜伏期,能源效率,提高能量效率,并提高了相对较高的类别的准确性,并在同时保护了SITUD DATA DAPAIN PLISTERS PLASSICS。OCAP提出了一种基于输入图像的中间激活的新型类感知的修剪方法,以识别类 - 近距离的通道。此外,我们提出了一种基于KL差异的方法,以选择有效调整修剪模型的多样性和代表性数据。实验结果显示了OCAP的有效性和效率。与最先进的类感知的修剪方法相比,OCAP具有更好的准确性和更高的压缩比。代码可在https://github.com/mzd22222/ocap上获得。此外,我们在Nvidia Jetson Nano,Nvidia Jetson TX2和Nvidia Jetson Agx Xavier上评估了OCAP,在效率方面,实验结果证明了OCAP在边缘系统上的适用性。
在心脏的电活动中抽象一种被称为心力衰竭的不规则。心脏心律失常可能会引起严重的问题,例如中风和心力衰竭。我们应该确保有更多的敏感技术(除传统的心电图),因为会议方法(例如ECG)受到一些可能主观的限制,并且可以达到较低的精度。这项工作引入了一种相对较新的混合方法,可以通过将前馈新网络(FNN)与深神经网络(DNN)相结合,从而在早期阶段检测心律不齐。预见的框架试图通过使用深度学习技术来解决现有诊断方法中的差距,尤其是在理解医疗信息中的顺序模式时。混合模型的有效性是通过采用许多调查的复合评估来衡量的,例如准确性,精度,回忆,F1得分和AUC-ROC曲线分析。经验结果强调,混合模型的精度与84.8%的FNN模型和DNN模型的准确性也相同,为84.8%。的准确性,召回和F1得分,以确定模型如何正确地识别较少的FP和FN的阳性心脏节奏实例。AUC-ROC曲线分析也用于模型的评估准确性。但是,混合FNN-DNN策略只是发展心血管管理和治疗场的开发的开始,因为它为获得更好的检测和早期诊断心律不齐的良好途径提供了良好的途径。有必要对拟议的工具进行更多的研究和概念验证验证,以供更广泛的人群进行。
摘要 — 深度神经网络 (DNN) 加速器可靠性的严格要求与减少硬件平台计算负担的需求相伴而生,即降低能耗和执行时间以及提高 DNN 加速器的效率。此外,对具有定制要求的专用 DNN 加速器的需求不断增长,特别是对于安全关键型应用,这需要进行全面的设计空间探索,以开发出满足这些要求的高效且强大的加速器。因此,硬件性能(即面积和延迟)与 DNN 加速器实现的可靠性之间的权衡变得至关重要,需要分析工具。本文提出了一种全面的方法来探索和实现对量化对模型精度、激活故障可靠性和硬件效率的三方影响的整体评估。介绍了一个完全自动化的框架,该框架能够应用各种量化感知技术、故障注入和硬件实现,从而实现硬件参数的测量。此外,本文提出了一种集成在框架内的新型轻量级保护技术,以确保最终基于脉动阵列的 FPGA 实现的可靠部署。在已建立的基准上进行的实验展示了分析流程以及量化对可靠性、硬件性能和网络准确性的深远影响,特别是关于网络激活中的瞬态故障。索引术语 — 深度神经网络、设计空间探索、量化、故障模拟、可靠性评估
2018 年,尼日利亚成功将微型中子源反应堆 (MNSR) NIRR-1 从可用于武器的高浓缩铀 (HEU) 转换为低浓缩铀 (LEU)。将世界各地的研究反应堆燃料从 HEU 转换为 LEU 是国际社会为尽量减少 HEU 的民用用途并降低相关安全和扩散风险而做出的努力的一部分。该转换项目由尼日利亚原子能委员会 (NAEC) 和国际原子能机构 (IAEA) 发起,并得到了中国、挪威、英国和美国能源部国家核安全局 (NNSA) 的支持。NIRR-1 的转换使超过 1 公斤的中国产高浓缩铀 (HEU) 得以成功运回,从而使尼日利亚不再使用 HEU。五年后,NIRR-1 继续为尼日利亚提供宝贵的科学见解。
摘要 — 量化通常用于深度神经网络 (DNN),通过降低激活和权重(又称张量)的算术精度来减少存储和计算复杂度。高效的硬件架构采用线性量化,以便将最新的 DNN 部署到嵌入式系统和移动设备上。然而,线性均匀量化通常无法将数值精度降低到 8 位以下,而不会牺牲模型精度方面的高性能。性能损失是由于张量不遵循均匀分布。在本文中,我们表明大量张量符合指数分布。然后,我们提出 DNA-TEQ 以自适应方案对 DNN 张量进行指数量化,以在数值精度和精度损失之间实现最佳权衡。实验结果表明,DNA-TEQ 提供的量化位宽比以前的方案低得多,平均压缩率比线性 INT8 基线高出 40%,准确度损失可以忽略不计,并且无需重新训练 DNN。此外,DNA-TEQ 在指数域中执行点积运算方面处于领先地位。对于一组广泛使用的 DNN,与基于 3D 堆叠内存的基线 DNN 加速器相比,DNA-TEQ 平均可提供 1.5 倍的加速和 2.5 倍的节能。索引术语 —DNN、量化、指数、Transformer