最近,模型合并技术已浮出水面,作为将多个单元模型组合为单个多泰模型组合的解决方案。但是,该领域的先前努力需要进行其他培训或细调过程,或者要求模型具有相同的预先训练的初始化。在这项工作中,我们在W.R.T.先前的工作中确定了一个缺点。单位相似性在重量空间和激活空间中的不一致性。为了解决这种不一致,我们提出了一个创新的模型合并框架,该模型是在双空间约束(MUDSC)下合并的。具体而言,我们主张探索位于双重空间中统一高相似性的区域中的置换矩阵,而不是仅仅使单个空间的目标最大化,这是通过激活和重量相似性矩阵的线性组合实现的。为了提高可用性,我们还对群体结构进行了对企业的适应,包括多头关注和群体标准化。全面的实验比较表明,MUDSC可以很明显地提高具有各种任务组合和体系结构的合并模型的性能。此外,多任务损失景观中合并模型的可视化表明,MUDSC使合并的模型能够驻留在重叠段中,其中每个任务都有统一的较低损失。我们的代码可在https://github.com/zju-vipa/training_free_model_merging上公开获取。
主要关键词