摘要 — 现代深度神经网络,尤其是最近的大型语言模型,具有巨大的模型大小,需要大量的计算和存储资源。为了能够在资源受限的环境中部署现代模型并加快推理时间,研究人员越来越多地探索修剪技术作为神经网络压缩的热门研究方向。从 2020 年到 2024 年,已经发表了三千多篇修剪论文。然而,关于修剪的最新综合评论论文却很少。为了解决这个问题,在这篇调查中,我们对现有的深度神经网络修剪研究工作进行了全面的回顾,分类为 1) 通用/特定的加速,2) 何时修剪,3) 如何修剪,以及 4) 修剪与其他压缩技术的融合。然后,我们对八对对比设置(例如非结构化/结构化、一次性/迭代、无数据/数据驱动、初始化/预训练权重等)进行了彻底的比较分析,并探讨了几个新兴主题,包括大型语言模型、视觉变压器、扩散模型和大型多模态模型的修剪、训练后修剪以及不同级别的监督修剪,以阐明现有方法的共性和差异,并为进一步的方法开发奠定基础。最后,我们就选择修剪方法提出了一些有价值的建议,并展望了神经网络修剪的几个有前途的研究方向。为了促进未来对深度神经网络修剪的研究,我们总结了广泛的修剪应用(例如,对抗鲁棒性、自然语言理解等),并建立了一个精选的数据集、网络和不同应用的评估集合。我们在 https://github.com/hrcheng1066/awesome-pruning 上维护了一个存储库,它是神经网络修剪论文和相应开源代码的综合资源。我们将不断更新此存储库,以包含该领域的最新进展。
本文探讨了在迁移学习应用中使用神经网络修剪来实现更高效的推理。目标是将神经网络集中并优化在较小的专门目标任务上。随着物联网的出现,我们看到基于人工智能的移动和嵌入式设备(如可穿戴设备和其他智能设备)的应用大幅增加。然而,随着机器学习算法的复杂性和能力不断增加,由于这些设备上资源有限,这种向边缘的推进带来了新的挑战。需要某种形式的压缩才能让最先进的卷积神经网络在边缘设备上运行。在这项工作中,我们调整了现有的神经网络修剪方法,使它们能够专门化网络,使其仅关注最初训练的子集。这是一个迁移学习用例,我们优化大型预训练网络。这与标准优化技术不同,它允许网络忘记某些概念,并使网络的占用空间更小。我们比较了不同的修剪标准,包括可解释人工智能 (XAI) 领域的标准,以确定哪种技术可以实现尽可能小的网络,同时保持目标任务的高性能。我们的结果显示了在嵌入式设备上执行神经网络时使用网络专业化的好处,无论是否使用 GPU 加速。
摘要 深度神经网络 (deep NN) 的性能取决于大量需要训练的权重参数,这是一个计算瓶颈。更深层次的架构日益增长的趋势对资源受限设备上的训练和推理方案造成了限制。剪枝是去除深度 NN 中不重要的参数并使其更容易在资源受限的设备上部署以供实际应用的重要方法。在本文中,我们提出了一种基于启发式的新型滤波器剪枝方法来自动识别和剪枝不重要的滤波器,并加快资源有限设备上的推理过程。不重要的滤波器的选择由一种新颖的剪枝估计器 (c) 进行。所提出的方法在各种卷积架构 AlexNet、VGG16、ResNet34 和数据集 CIFAR10、CIFAR100 和 ImageNet 上进行了测试。在大规模 ImageNet 数据集上的实验结果表明,VGG16 的 FLOP 可降低高达 77.47%,实现 5 倍推理加速。与其他最先进方法相比,更流行的 ResNet34 模型的 FLOP 降低了 41.94%,同时保持了具有竞争力的性能。
卷积神经网络 (CNN) 在各种应用中的成功伴随着计算和参数存储成本的显著增加。最近为减少这些开销所做的努力包括修剪和压缩各个层的权重,同时力求不牺牲性能。在本文中,我们提出了一种受神经网络可解释性启发的 CNN 修剪新标准:使用从可解释人工智能 (XAI) 概念中获得的相关性分数,自动找到最相关的单元,即权重或过滤器。通过探索这个想法,我们将可解释性和模型压缩研究联系起来。我们表明,我们提出的方法可以在迁移学习设置中有效地修剪 CNN 模型,在这种设置中,在大型语料库上预训练的网络可以适应专门的任务。该方法在广泛的计算机视觉数据集上进行了评估。值得注意的是,我们的新标准不仅在进行连续再训练时与最先进的修剪标准相比具有竞争力或更好,而且在资源受限的应用场景中,其表现明显优于这些先前的标准,在这种场景中,要迁移到的任务的数据非常稀缺,并且人们选择不进行微调。我们的方法能够迭代压缩模型,同时保持甚至提高准确性。同时,它的计算成本与梯度计算的数量级相当,并且应用起来相对简单,无需调整修剪的超参数。
最佳运输,也称为运输理论或Wasserstein指标,是一个数学框架,它解决了找到最有效的方法将质量或资源从一个分布转移到另一种分布的最有效方法的问题,同时最大程度地减少了一定的成本函数[1,2,3]。最初在18世纪作为物流和经济学工具开发,最佳运输在现代数学和各种科学学科(包括计算机科学和机器学习)上引起了极大的关注。在其核心方面,最佳运输旨在通过找到将一个分布的质量重新分配以匹配另一个位置的成本,从而量化两个概率分布之间的相似性。这个优雅而多才多艺的概念在不同领域中发现了从图像处理和数据分析到经济学[11]和神经科学的应用,使其成为具有广泛含义的强大而统一的数学工具[12]。
基于注意力的变压器已成为实现自然语言处理和计算机视觉等任务的强大范式。但是,与卷积网络相比,变压器通常会显示更高的计算成本和参数计数。这种效率低下会阻碍将变压器部署到资源约束设备(例如边缘设备)上。结构化的修剪技术提出了一个有前途的方向,可以压缩变形金刚的边缘计算方案。本文研究了修剪技术以在视觉变压器中诱导结构化的稀疏性,从而减少了计算要求,同时最大程度地减少准确性降解。目标是为有效的视觉变压器推理开发方法。结构化的修剪在训练时间时通过解决一个优化问题来学习对单个网络组合的重要性得分,该问题试图最大程度地提高任务性能,同时最大程度地减少模型中参数的数量。随后,重要性得分转化为二进制掩码,这些面具修剪不重要的结构,例如特定线性层输出二 - 段或整个注意力头。为了促进诱发稀疏模式的规律性,提出了各种面具分享策略,以使相关构件元素的修剪决策对夫妇进行修剪决策。规律性至关重要,因为由于特定的变压器的特定连接模式,完全独立性排除了某些蒙版组件的去除,从而导致模型实际部署在硬件上时,导致压缩率较低。经验结果表明,在图像分类任务中,组件完全独立的掩蔽优于平衡准确性和稀疏性的共享策略。仍然是实验表明,通过共享和独立面具的混合,提出的修剪方案成功地压缩了视觉变压器的90%,精度仅为4%或70%的压缩率,精度下降小于1%。
网络压缩由于能够减少推理过程中的内存和计算成本而得到了广泛的研究。然而,以前的方法很少处理残差连接、组/深度卷积和特征金字塔网络等复杂结构,其中多层的通道是耦合的,需要同时进行修剪。在本文中,我们提出了一种通用的通道修剪方法,可应用于各种复杂结构。特别地,我们提出了一种层分组算法来自动查找耦合通道。然后,我们基于 Fisher 信息推导出一个统一的度量来评估单个通道和耦合通道的重要性。此外,我们发现 GPU 上的推理加速与内存 2 的减少而不是 FLOPs 的减少更相关,因此我们采用每个通道的内存减少来规范重要性。我们的方法可以用来修剪任何结构,包括具有耦合通道的结构。我们对各种骨干网络进行了广泛的实验,包括经典的 ResNet 和 ResNeXt、适合移动设备的 MobileNetV2 以及基于 NAS 的 RegNet,这些实验都针对尚未得到充分探索的图像分类和对象检测。实验结果验证了我们的方法可以有效地修剪复杂的网络,在不牺牲准确性的情况下提高推理速度。
工具 合适的工具可以使树木修剪变得更容易、更有趣。一套优质的手动修枝剪、枝剪和小型修枝锯通常可以满足大多数应用。薄皮手套可以避免在处理树枝时擦伤或戳伤您的手,并且建议戴上安全眼镜,因为当您试图将树枝从树上拔出时,树枝可能会挂住、弹回或鞭打您。 要去除和塑造较长的树枝,可伸缩高枝锯/修枝剪非常有用。许多高枝锯非常重且坚固,这给操作带来了困难——作者更喜欢重量较轻的型号,因为它们更容易操作到正确修剪所需的困难角度。去除较大的树枝可能需要较大的手锯或小型链锯。链锯对于对较大或向内生长的树枝进行成形切割非常有用。
葡萄树干疾病(GTD)给全球葡萄行业造成严重的经济损失(Fontaine等,2016b; Mondello等,2018a)。休闲药包括各种分类学上的真菌(Gramaje等,2018; Mondello等人,2018b),可以单独或一起影响植物。除了在叶子和簇上引起外部症状外,这些病原体还会引起内部木材变色。症状表达中不可预测的不连续性是这些疾病的特征(Mugnai等,1999)。GTD包括影响成年和年轻葡萄藤的一系列疾病。esca复合物,杂化磷酸盐死亡和尤特巴死亡被认为是成年葡萄藤的主要GTD(Claverie等,2020)。ESCA复合物与许多系统发育多样的真菌有关(Mugnai等,1999),包括ascomycota和basidiomycota。与ESCA相关的comycetes包括血管病原体phaeomoniella chlamydospora和phaeoacremonium最低限度(Syn。pm。Aleophilum)(u rbez-Torres等,2014)和其他phaeoacremonium。Wood-decay basidiomycetes include Fomitiporia mediterranea in Europe ( Moretti et al., 2021 ), and other pathogens belonging to the genera Fomitiporella, Fomitiporia, Inocutis, Inonotus, Stereum , and Phellinus in non-European countries ( Cloete et al., 2011 ; White et al., 2011 );这些真菌已从受感染的葡萄树干中分离出来,但是它们在疾病病因学中的作用尚未完全了解(Surico等,2006; Bertsch等,2013; Gramaje等,2018),并且在近年来被重新考虑。botryosphaeria dieback是由20种以上的杂化磷酶科引起的,包括dothidea N. Luteum,N。Rib,Eliplodia Serita和D. Mutila(Van Niekerk等,2004; Taylor等,2005;ÚRbez-Torres and Gubler,2009; Amponsah et al。 2013)。eutypa dieback是由eutypa lata和其他diatrypaceai特殊的特殊的(Trouillas and Gubler,2010; Luque等,2012)。这些病原体可以单独从受影响的木材中回收,也可以与其他真菌(例如PA)相结合。衣原体,下午。Aleophilum,Sphaeropsis Mariorum和Diaporthempelina(PéRros等,1999)。GTD症状是多缩的,包括马刺和手臂的死亡,木材的变色或内部条纹,扇形木材坏死和白色腐烂;由于植物可以同时受到多种真菌的影响,因此在其中GTD中,某些症状可能重叠(Gramaje等,2018)。木材变色和de骨是由多种结构和生理变化引起的,由真菌产生的纤维素分解和木质素溶酶,由于凝胶和牙龈由联邦木质部分泌的凝胶和牙龈引起的血管闭塞细胞或木质部实质细胞的坏死,导致真菌毒素(Bertsch等,2013; Claverie等,2020)。所有这些变化都会导致木质部伏特定功能的木质部发生变化,从而导致水和养分运动(Mugnai等,1999; Sparapano等,2000; Andol和Andol et et al。,2011)。最近报道了(Mondello等,2018b),详细描述了与不同GTD的症状。叶子从未分离出GTD真菌(Bertsch等,2013),也显示了多种症状,也已经描述过这些症状(Mugnai等,1999;Amborabé等,2001; Mondello et al。,2018b);木材和木质部血管改变,真菌毒素和继发代谢物的沉积均有助于
如今,电子游戏行业正在迅速发展,并受到越来越多的关注。该行业通过不断突破可能的界限来激发创新,从而鼓励人们创造新技术。由于这种快速变化,许多传统的策略棋盘游戏正在失去人们的兴趣。使用人工智能创建数字化版本将使这些游戏重新吸引到大量观众的关注中。国际象棋就是数字化棋盘游戏的一个很好的例子。这种游戏的许多不同实现都使用 Minimax 或 Alpha-Beta 剪枝算法 [8]。Minimax 是一种算法,它首先假设 AI 总是会移动以最大化评估函数给出的分数,而对手总是会移动以最小化该分数。对于每个节点,我们可以递归地将其分数定义为如果是最大玩家的回合,则其子节点的分数的最大值,否则为最小值。叶子节点由评估函数评分 [9]。Alpha beta 剪枝是一种改进的 Minimax 算法。该算法并不计算所有节点——它会剪掉那些不影响可能结果的节点。[9]