我们考虑深度神经网络 (DNN) 在具有挑战性的一次性/后训练环境中的模型压缩问题,在该环境中,我们获得了一个经过精确训练的模型,并且必须仅基于少量校准输入数据对其进行压缩,而无需进行任何重新训练。鉴于新兴的软件和硬件支持通过加速剪枝和/或量化来执行压缩模型,这个问题变得很普遍,并且已经针对这两种压缩方法分别提出了性能良好的解决方案。在本文中,我们介绍了一种新的压缩框架,该框架在统一的环境中涵盖权重剪枝和量化,具有时间和空间效率,并且大大提高了现有后训练方法的实际性能。在技术层面,我们的方法基于 [LeCun、Denker 和 Solla,1990] 的经典最佳脑外科医生 (OBS) 框架的精确和高效实现,该框架扩展到还涵盖现代 DNN 规模的权重量化。从实际角度来看,我们的实验结果表明,它可以显著改善现有后训练方法的压缩-准确度权衡,并且可以在后训练环境中实现修剪和量化的准确复合应用。
如何开发精简而准确的深度神经网络对于实际应用至关重要,尤其是对于嵌入式系统中的应用。尽管之前沿着该研究方向的工作已经显示出一些有希望的结果,但是大多数现有方法要么无法显著压缩训练有素的深度网络,要么需要对修剪后的深度网络进行大量再训练才能重新提高其预测性能。在本文中,我们提出了一种新的深度神经网络分层修剪方法。在我们提出的方法中,每个单独层的参数都基于相应参数的分层误差函数的二阶导数独立地进行修剪。我们证明,修剪后最终的预测性能下降受每层造成的重构误差的线性组合限制。通过适当控制分层误差,只需对修剪后的网络进行轻度再训练即可恢复其原始的预测性能。我们在基准数据集上进行了大量实验,以证明我们的修剪方法与几种最先进的基线方法相比的有效性。我们的工作代码发布在:https://github.com/csyhhu/L-OBS 。
最佳运输,也称为运输理论或Wasserstein指标,是一个数学框架,它解决了找到最有效的方法将质量或资源从一个分布转移到另一种分布的最有效方法的问题,同时最大程度地减少了一定的成本函数[1,2,3]。最初在18世纪作为物流和经济学工具开发,最佳运输在现代数学和各种科学学科(包括计算机科学和机器学习)上引起了极大的关注。在其核心方面,最佳运输旨在通过找到将一个分布的质量重新分配以匹配另一个位置的成本,从而量化两个概率分布之间的相似性。这个优雅而多才多艺的概念在不同领域中发现了从图像处理和数据分析到经济学[11]和神经科学的应用,使其成为具有广泛含义的强大而统一的数学工具[12]。
1梳子包括天然3mm装饰。将梳子连接到剃须系统上,将头发固定到3mm的固定长度。您可以在没有梳子的情况下使用剃须系统,以取得更接近的结果。对于较厚的头发,建议使用梳子进行预修剪。
视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。
摘要在该领域达成共识,即小胶质细胞在神经发育过程中起着杰出作用,例如突触修剪和神经元网络成熟。因此,出现了当前将小胶质细胞缺陷与神经发育障碍(NDDS)相关的动量。这个概念受啮齿动物的研究和临床数据的挑战。有趣的是,小胶质细胞的数量减少或小胶质细胞功能不一定会导致明显的NDD表型,而神经精神病症状似乎主要在成年期发展。因此,仍然开放讨论小胶质细胞是否确实是健康神经发育必不可少的。在这里,我们批判性地讨论了小胶质细胞在突触修剪中的作用,并突出区域和年龄依赖性。我们提出了在NDD的背景下的小胶质细胞介导的突触修剪的更新模型,并讨论了针对这些疾病治疗这些疾病的小胶质细胞的潜力。
经验依赖性的神经胶质突触修剪在雕刻脑电路连通性期间在早期生命的关键时期发挥着关键作用。最近的进步表明,神经元和神经胶质吞噬细胞之间的分层级联级联串联策划了这种精确的,有针对性的突触消除。我们将重点放在来自强大的果蝇遗传模型的研究上,参考了小鼠工作的补充发现。我们同时介绍神经元到神经元和神经胶质细胞间信号通路指导经验依赖经验的神经胶质突触修剪。我们讨论了分泌的长距离提示和细胞表面短路线索的推定层次结构,该线索起作用,以依次编排神经胶质激活,在效果,靶标识别,吞噬,然后吞噬吞噬作用,以便进行突触修剪。配体受体伴侣在不同的果蝇和小鼠研究中讨论了在不同情况下介导的这些阶段的伴侣。信号提示包括磷脂,小神经递质,胰岛素样肽和蛋白质。讨论了这些配体的保守受体,以及受体身份仍然未知的机制。提出了潜在的机制,即在早期临时临界时期内依赖经验依赖的神经胶质突触消除的紧密时间限制,以及在成熟时重新开放这种可塑性的潜在手段。
2.1矢量修剪。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 2.1.1矢量优势。。。。。。。。。。。。。。。。。。。。。。。。。。7 2.1.2修剪算法。。。。。。。。。。。。。。。。。。。。。。。。。15 2.2复杂性。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 2.2.1线性编程的复杂性。。。。。。。。。。。。。。。。18 2.2.2简单矢量修剪算法的复杂性。。。。。。。。。19 2.2.3与凸赫尔问题的关系。。。。。。。。。。。。。。20 2.2.4平均案例复杂性。。。。。。。。。。。。。。。。。。。。。。21 2.3 POMDP的动态编程算法中的向量修剪。。。22 2.3.1 AI计划的POMDP的精确解决方案。。。。。。。。。。。。22 2.3.2增量修剪。。。。。。。。。。。。。。。。。。。。。。。。。24 2.4有界错误近似。。。。。。。。。。。。。。。。。。。。。。。25 2.4.1近似误差。。。。。。。。。。。。。。。。。。。。。。。。26 26 2.4.2近似矢量修剪。。。。。。。。。。。。。。。。27 2.4.3近似动态编程更新。。。。。。。。。。。。28
小语言模型(SLM)由于在边缘设备中的广泛应用而引起了学术界和行业的极大关注。为了获得具有强大性能的SLM,传统方法要么从头开始预训练模型,这会产生大量的计算成本,或者压缩/修剪现有的大语言模型(LLMS),这会导致性能下降,并且与预训练相比差不多。在本文中,我们研究了涉及结构化修剪和模型训练的加速方法家族。我们发现1)层面的适应性修剪(适应性培训)在LLM中非常有效,并且对现有的修剪技术的改善具有显着改善,2)适应性修剪,配备了进一步的训练导致模型,可与模型相当,与那些从抓挠中进行预训练的模型相当,3)逐步训练,仅通过促进培训,而仅通过互动而进行较小的培训(仅在较小的培训中),并且仅通过互动而进行互动(仅在较小的情况下),并且促进了较小的培训。一次5%)。对Llama-3.1-8b的实验结果表明,适应性抗性的表现要优于常规修剪方法,例如LLM-PRUNER,FLAP和SLICEGPT,平均在平均基准的准确度中以1%-7%的速度为1%-7%。此外,改编普朗纳(Adapt-Pruner)在MMLU基准测试上恢复了Mobilellm-125m的性能,并通过从其较大的对应物中修剪来降低代币,并发现了超过多个基准标记Llama-3.2-1B的新型1B模型。
GPT-2模型体系结构。GPT-2模型包含N变压器解码器块,如左图所示。每个解码器块(中心面板)包括一个多头蒙版的注意层,一个多层感知层,归一化和辍学层。剩余连接(与加法操作员的分支线)允许该块从上一个块的输入中学习。使用Q,K和V向量计算出注意力层(右图),以捕获输入序列中的顺序关系。