如果神经网络规模较大,则往往在训练时获得更高的准确度,即使生成的模型参数过多。但是,在训练之前、之中或之后小心地删除过多的参数,也可能产生准确度相似甚至更高的模型。在许多情况下,这可以通过简单的启发式方法实现,例如删除一定比例的绝对值最小的权重,即使绝对值并不是权重相关性的完美指标。在获得明显更佳的剪枝性能取决于考虑删除多个权重的综合影响这一前提下,我们重新审视了基于影响的剪枝的经典方法之一:最佳脑外科医生 (OBS)。我们提出了一种易于处理的启发式方法来解决 OBS 的组合扩展,其中我们选择要同时删除的权重,并将其与未剪枝权重的单次系统更新相结合。我们的选择方法在高稀疏性方面优于其他方法,如果在这些方法之后应用单次权重更新,也会很有优势。源代码:github.com/yuxwind/CBS。
海量的参数和计算需求阻碍了大型语言模型 (LLM) 的广泛应用。网络剪枝为该问题提供了一个实用的解决方案。然而,现有的 LLM 剪枝工作主要集中于非结构化剪枝或需要剪枝后微调。前者依靠特殊硬件来加速计算,而后者可能需要大量的计算资源。在本文中,我们介绍了一种无需再训练的结构化剪枝方法,称为 SoBP ( S structured O ptimal Brain P runing)。它利用全局一阶信息来选择剪枝结构,然后用局部贪婪方法对其进行细化,最后采用模块重构来减少信息丢失。我们在 8 个不同的数据集上对来自 3 个 LLM 系列的 14 个模型的有效性进行了评估。实验结果表明 SoBP 优于当前最先进的方法。
合奏修剪结合了并行制作预测产生的个体学习者的子集是整体学习中的重要话题。过去几十年来开发了许多修剪算法,这些算法的重点是学习者对样本的外部行为,这可能会导致过度拟合。在本文中,我们猜测合奏的概括性能不仅与样本上的外部行为有关,而且还取决于分裂学习者的内部结构。我们提出了基于kolmogorov复杂性和最小描述长度(MDL)原理的一般MEPSI方法,该原理制定了综合修剪任务,作为构成两种目标的优化问题,这些问题包括个人学习者之间的经验误差和结构信息。我们还提供了对决策树的MEPSI的具体实现。理论结果为一般的MEPSI方法和基于树的实现提供了概括。在多个现实世界数据集上进行的合规实验证明了我们提出的方法的有效性。
状态空间模型(SSM)具有与变压器的注意模块相比保持线性计算复杂性的优势,并且已将视觉任务应用于视觉任务作为一种新型强大的视觉基础模型。受到观察的启发,即视觉变压器(VIT)的最终预测仅基于最有用的代币的子集,我们采取了新的步骤,即通过基于令牌的修剪来提高基于SSM的视力模型的效率。但是,即使经过广泛的微调,为VIT设计的现有代币修剪技术的直接应用也无法提供良好的性能。为了解决此问题,我们重新审视了SSM的独特计算特征,并发现Naive Application破坏了顺序令牌位置。这种洞察力促使我们设计了一种专门针对基于SSM的视力模型的新颖和通用的代币修剪方法。我们首先引入一种修剪感知的隐藏状态对准方法,以稳定剩余令牌以增强性能的邻里。此外,根据我们的详细分析,我们提出了一种适用于SSM模型的令牌重要性评估方法,以指导令牌修剪。采用有效的实施和实际加速方法,我们的方法带来了实际的加速。广泛的实验表明,我们的方法可以实现大量的计算减少,而对不同任务的性能的影响最小。值得注意的是,我们在成像网上获得了81.7%的精度,而修剪的plainmamba-l3的拖鞋降低了41.6%。此外,我们的工作为了解基于SSM的视力模型的行为提供了更深入的见解。
深度神经网络越来越大,因此更难在受限的物联网设备上部署。拆分计算提供了一种解决方案,即拆分网络并将前几层放置在物联网设备上。这些层的输出被传输到云端,然后继续进行推理。早期的研究表明中间激活输出具有一定程度的高稀疏性,本文分析并利用激活稀疏性来减少将中间数据传输到云端时的网络通信开销。具体来说,我们分析了 CIFAR-10 和 ImageNet 上 ResNet-50 中两个早期层的中间激活,重点关注稀疏性以指导选择分割点的过程。我们对激活和特征图进行了动态修剪,发现稀疏性非常依赖于层的大小,权重与卷积层中的激活稀疏性无关。此外,我们表明,稀疏中间输出可以压缩 3.3 倍,准确度损失 1.1%,无需任何微调。当添加微调时,压缩系数增加到 14 倍,总体准确度损失为 1%。
我们考虑深度神经网络 (DNN) 在具有挑战性的一次性/后训练环境中的模型压缩问题,在该环境中,我们获得了一个经过精确训练的模型,并且必须仅基于少量校准输入数据对其进行压缩,而无需进行任何重新训练。鉴于新兴的软件和硬件支持通过加速剪枝和/或量化来执行压缩模型,这个问题变得很普遍,并且已经针对这两种压缩方法分别提出了性能良好的解决方案。在本文中,我们介绍了一种新的压缩框架,该框架在统一的环境中涵盖权重剪枝和量化,具有时间和空间效率,并且大大提高了现有后训练方法的实际性能。在技术层面,我们的方法基于 [LeCun、Denker 和 Solla,1990] 的经典最佳脑外科医生 (OBS) 框架的精确和高效实现,该框架扩展到还涵盖现代 DNN 规模的权重量化。从实际角度来看,我们的实验结果表明,它可以显著改善现有后训练方法的压缩-准确度权衡,并且可以在后训练环境中实现修剪和量化的准确复合应用。
2.1矢量修剪。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 2.1.1矢量优势。。。。。。。。。。。。。。。。。。。。。。。。。。7 2.1.2修剪算法。。。。。。。。。。。。。。。。。。。。。。。。。15 2.2复杂性。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 2.2.1线性编程的复杂性。。。。。。。。。。。。。。。。18 2.2.2简单矢量修剪算法的复杂性。。。。。。。。。19 2.2.3与凸赫尔问题的关系。。。。。。。。。。。。。。20 2.2.4平均案例复杂性。。。。。。。。。。。。。。。。。。。。。。21 2.3 POMDP的动态编程算法中的向量修剪。。。22 2.3.1 AI计划的POMDP的精确解决方案。。。。。。。。。。。。22 2.3.2增量修剪。。。。。。。。。。。。。。。。。。。。。。。。。24 2.4有界错误近似。。。。。。。。。。。。。。。。。。。。。。。25 2.4.1近似误差。。。。。。。。。。。。。。。。。。。。。。。。26 26 2.4.2近似矢量修剪。。。。。。。。。。。。。。。。27 2.4.3近似动态编程更新。。。。。。。。。。。。28
•安抚威胁•开玩笑以实现积极的社会反应•迅速遵循指示•幽默是一种辩护•有时被视为“人们取悦”•通过笑话寻求联系,玩笑,玩笑•让很多人感觉更好•将他人的需求放在我们自己的
在本文中,我们提出了一种用于边缘系统的新设备类感知的修剪方法,即OCAP。背后的动机是,深度神经网络(DNN)模型通常经过大型数据集训练,以便他们可以学习更多的多样性功能并被概括以准确预测众多类别。一些作品表明某些功能(频道)仅与某些类有关。和边缘系统通常在系统检测到的特定环境中实现。结果,为特定边缘环境实施一般培训模型会导致不必要的冗余。同时,将一些数据和模型转移到云中以进行个性化会导致隐私问题。因此,我们可能有一种在设备上意识到的修剪方法来删除与类无关紧要的通道,而边缘系统主要观察到,从而减少了模型的浮点操作(拖放),记忆足迹,潜伏期,潜伏期,能源效率,提高能量效率,并提高了相对较高的类别的准确性,并在同时保护了SITUD DATA DAPAIN PLISTERS PLASSICS。OCAP提出了一种基于输入图像的中间激活的新型类感知的修剪方法,以识别类 - 近距离的通道。此外,我们提出了一种基于KL差异的方法,以选择有效调整修剪模型的多样性和代表性数据。实验结果显示了OCAP的有效性和效率。与最先进的类感知的修剪方法相比,OCAP具有更好的准确性和更高的压缩比。代码可在https://github.com/mzd22222/ocap上获得。此外,我们在Nvidia Jetson Nano,Nvidia Jetson TX2和Nvidia Jetson Agx Xavier上评估了OCAP,在效率方面,实验结果证明了OCAP在边缘系统上的适用性。
我们考虑在具有挑战性的一声/训练后设置中,深度神经网络(DNN)的模型压缩问题,在该设置中,我们将获得一个准确的训练有素的模型,并且必须仅基于少量校准输入数据而无需进行任何重新训练。鉴于新兴软件和硬件支持,该问题已变得很流行,以通过加速进行修剪和/或量化来执行模型,并且已经针对两种压缩方法独立提出了良好的表现解决方案。在本文中,我们引入了一个新的压缩框架,该框架涵盖了在统一的环境中涵盖重量修剪和量化的,这是时间和空间效果,并且在现有后训练方法的实际性能上大大提高。在技术层面上,我们的方法基于[Lecun,Denker和Solla,1990]的经典最佳脑外科医生(OBS)框架的精确而有效的实现,以涵盖现代DNNS规模的体重量化。从实际的角度来看,我们的实验结果表明,它可以在现有训练后方法的压缩准确性权衡方面显着改善,并且它可以在培训后环境中启用修剪和量化的准确复合应用。