详细内容或原文请订阅后点击阅览
在模型压缩中信息几何形状和迭代优化:操作器分解
深度学习模型的不断增长的参数计数需要有效的压缩技术,以在资源受限的设备上部署。本文探讨了信息几何形状的应用,即密度诱导的参数空间指标的研究,以分析模型压缩空间内的现有方法,主要集中于操作员分解。采用这种观点强调了核心挑战:定义最佳的低计算子曼if(或子集)并投射到它上。我们认为可以理解许多成功的模型压缩方法……
来源:Apple机器学习研究深度学习模型的不断增长的参数计数需要有效的压缩技术,以在资源受限的设备上部署。本文探讨了信息几何形状的应用,即密度诱导的参数空间指标的研究,以分析模型压缩空间内的现有方法,主要集中于操作员分解。采用这种观点强调了核心挑战:定义最佳的低计算子曼if(或子集)并投射到它上。我们认为,许多成功的模型压缩方法可以被理解为隐式近似该投影的信息差异。我们强调,在压缩预训练的模型时,使用信息差异对于提高零拍的精度至关重要,但是当模型经过微调时,这种情况不再是这种情况。在这种情况下,瓶颈模型的训练性对于以最小的性能降解而达到高压比,因此需要采用迭代方法。在这种情况下,我们证明了训练受柔软等级约束的训练神经网络的迭代奇异值阈值的融合。为了进一步说明这种观点的实用性,我们展示了通过较低的等级降低对现有方法的简单修改如何在固定压缩率下改善性能。
- †在苹果‡剑桥大学