在本文中,我们提出了一种用于边缘系统的新设备类感知的修剪方法,即OCAP。背后的动机是,深度神经网络(DNN)模型通常经过大型数据集训练,以便他们可以学习更多的多样性功能并被概括以准确预测众多类别。一些作品表明某些功能(频道)仅与某些类有关。和边缘系统通常在系统检测到的特定环境中实现。结果,为特定边缘环境实施一般培训模型会导致不必要的冗余。同时,将一些数据和模型转移到云中以进行个性化会导致隐私问题。因此,我们可能有一种在设备上意识到的修剪方法来删除与类无关紧要的通道,而边缘系统主要观察到,从而减少了模型的浮点操作(拖放),记忆足迹,潜伏期,潜伏期,能源效率,提高能量效率,并提高了相对较高的类别的准确性,并在同时保护了SITUD DATA DAPAIN PLISTERS PLASSICS。OCAP提出了一种基于输入图像的中间激活的新型类感知的修剪方法,以识别类 - 近距离的通道。此外,我们提出了一种基于KL差异的方法,以选择有效调整修剪模型的多样性和代表性数据。实验结果显示了OCAP的有效性和效率。与最先进的类感知的修剪方法相比,OCAP具有更好的准确性和更高的压缩比。代码可在https://github.com/mzd22222/ocap上获得。此外,我们在Nvidia Jetson Nano,Nvidia Jetson TX2和Nvidia Jetson Agx Xavier上评估了OCAP,在效率方面,实验结果证明了OCAP在边缘系统上的适用性。
如果神经网络规模较大,则往往在训练时获得更高的准确度,即使生成的模型参数过多。但是,在训练之前、之中或之后小心地删除过多的参数,也可能产生准确度相似甚至更高的模型。在许多情况下,这可以通过简单的启发式方法实现,例如删除一定比例的绝对值最小的权重,即使绝对值并不是权重相关性的完美指标。在获得明显更佳的剪枝性能取决于考虑删除多个权重的综合影响这一前提下,我们重新审视了基于影响的剪枝的经典方法之一:最佳脑外科医生 (OBS)。我们提出了一种易于处理的启发式方法来解决 OBS 的组合扩展,其中我们选择要同时删除的权重,并将其与未剪枝权重的单次系统更新相结合。我们的选择方法在高稀疏性方面优于其他方法,如果在这些方法之后应用单次权重更新,也会很有优势。源代码:github.com/yuxwind/CBS。
如何开发精简而准确的深度神经网络对于实际应用至关重要,尤其是对于嵌入式系统中的应用。尽管之前沿着该研究方向的工作已经显示出一些有希望的结果,但是大多数现有方法要么无法显著压缩训练有素的深度网络,要么需要对修剪后的深度网络进行大量再训练才能重新提高其预测性能。在本文中,我们提出了一种新的深度神经网络分层修剪方法。在我们提出的方法中,每个单独层的参数都基于相应参数的分层误差函数的二阶导数独立地进行修剪。我们证明,修剪后最终的预测性能下降受每层造成的重构误差的线性组合限制。通过适当控制分层误差,只需对修剪后的网络进行轻度再训练即可恢复其原始的预测性能。我们在基准数据集上进行了大量实验,以证明我们的修剪方法与几种最先进的基线方法相比的有效性。我们的工作代码发布在:https://github.com/csyhhu/L-OBS 。
深度卷积神经网络 (DNN) 取得了显著成功,广泛应用于多种计算机视觉任务。然而,其庞大的模型规模和高计算复杂度限制了其在 FPGA 和 mGPU 等资源受限的嵌入式系统中的广泛部署。作为两种最广泛采用的模型压缩技术,权重剪枝和量化分别通过引入权重稀疏性(即强制将部分权重设为零)和将权重量化为有限位宽值来压缩 DNN 模型。尽管有研究尝试将权重剪枝和量化结合起来,但我们仍然观察到权重剪枝和量化之间的不协调,尤其是在使用更激进的压缩方案(例如结构化剪枝和低位宽量化)时。本工作以 FPGA 为测试计算平台,以处理单元(PE)为基本并行计算单元,首先提出一种 PE 级结构化剪枝方案,在考虑 PE 架构的同时引入权重稀疏化,并结合优化的权重三元化方法,将权重量化为三元值({- 1 , 0 , +1 }),将 DNN 中主要的卷积运算从乘法累加(MAC)转换为仅加法,同时将原始模型(从 32 位浮点数到 2 位三元表示)压缩至少 16 倍。然后,我们研究并解决了 PE-wise 结构化剪枝与三元化之间的共存问题,提出了一种自适应阈值的权重惩罚剪枝 (WPC) 技术。我们的实验表明,我们提出的技术的融合可以实现最佳的 ∼ 21 × PE-wise 结构化压缩率,而 ResNet- 18 在 ImageNet 数据集上的准确率仅下降 1.74%/0.94% (top-1/top-5)。
合奏修剪结合了并行制作预测产生的个体学习者的子集是整体学习中的重要话题。过去几十年来开发了许多修剪算法,这些算法的重点是学习者对样本的外部行为,这可能会导致过度拟合。在本文中,我们猜测合奏的概括性能不仅与样本上的外部行为有关,而且还取决于分裂学习者的内部结构。我们提出了基于kolmogorov复杂性和最小描述长度(MDL)原理的一般MEPSI方法,该原理制定了综合修剪任务,作为构成两种目标的优化问题,这些问题包括个人学习者之间的经验误差和结构信息。我们还提供了对决策树的MEPSI的具体实现。理论结果为一般的MEPSI方法和基于树的实现提供了概括。在多个现实世界数据集上进行的合规实验证明了我们提出的方法的有效性。
我们考虑在具有挑战性的一声/训练后设置中,深度神经网络(DNN)的模型压缩问题,在该设置中,我们将获得一个准确的训练有素的模型,并且必须仅基于少量校准输入数据而无需进行任何重新训练。鉴于新兴软件和硬件支持,该问题已变得很流行,以通过加速进行修剪和/或量化来执行模型,并且已经针对两种压缩方法独立提出了良好的表现解决方案。在本文中,我们引入了一个新的压缩框架,该框架涵盖了在统一的环境中涵盖重量修剪和量化的,这是时间和空间效果,并且在现有后训练方法的实际性能上大大提高。在技术层面上,我们的方法基于[Lecun,Denker和Solla,1990]的经典最佳脑外科医生(OBS)框架的精确而有效的实现,以涵盖现代DNNS规模的体重量化。从实际的角度来看,我们的实验结果表明,它可以在现有训练后方法的压缩准确性权衡方面显着改善,并且它可以在培训后环境中启用修剪和量化的准确复合应用。
重复使用本文根据 Creative Commons 署名-非商业-禁止演绎 (CC BY-NC-ND) 许可条款发布。此许可仅允许您下载此作品并在注明作者的情况下与他人共享,但您不得以任何方式更改本文或将其用于商业用途。更多信息和许可条款的完整内容请参见:https://creativecommons.org/licenses/
尽管成功地将深入学习(RL)应用于现实世界中的问题(Mnih等人,2015年; Berner等。,2019年; Vinyals等。,2019年; Fawzi等。,2022; Bellemare等。,2020),越来越多的证据表明训练这些网络时会引起挑战和病理(Ostrovski等人。,2021; Kumar等。,2021a; Lyle等。,2022; Graesser等。,2022; Nikishin等。,2022; Sokar等。,2023; Ceron等。,2023)。特别是,已经表明,深度RL药物不足以利用网络的参数:Kumar等人。(2021a)证明存在隐式未参数化,Sokar等人。(2023)表明,训练期间有大量神经元和Graesser等。(2022)表明,稀疏训练方法可以使用很小的原始网络参数保持性能。
摘要 — 现代深度神经网络,尤其是最近的大型语言模型,具有巨大的模型大小,需要大量的计算和存储资源。为了能够在资源受限的环境中部署现代模型并加快推理时间,研究人员越来越多地探索修剪技术作为神经网络压缩的热门研究方向。从 2020 年到 2024 年,已经发表了三千多篇修剪论文。然而,关于修剪的最新综合评论论文却很少。为了解决这个问题,在这篇调查中,我们对现有的深度神经网络修剪研究工作进行了全面的回顾,分类为 1) 通用/特定的加速,2) 何时修剪,3) 如何修剪,以及 4) 修剪与其他压缩技术的融合。然后,我们对八对对比设置(例如非结构化/结构化、一次性/迭代、无数据/数据驱动、初始化/预训练权重等)进行了彻底的比较分析,并探讨了几个新兴主题,包括大型语言模型、视觉变压器、扩散模型和大型多模态模型的修剪、训练后修剪以及不同级别的监督修剪,以阐明现有方法的共性和差异,并为进一步的方法开发奠定基础。最后,我们就选择修剪方法提出了一些有价值的建议,并展望了神经网络修剪的几个有前途的研究方向。为了促进未来对深度神经网络修剪的研究,我们总结了广泛的修剪应用(例如,对抗鲁棒性、自然语言理解等),并建立了一个精选的数据集、网络和不同应用的评估集合。我们在 https://github.com/hrcheng1066/awesome-pruning 上维护了一个存储库,它是神经网络修剪论文和相应开源代码的综合资源。我们将不断更新此存储库,以包含该领域的最新进展。
视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。