剪辑:一种简单有效的Experts剪辑培训配方,稀疏升级

混合物(MOE)模型对于在控制推理成本的同时,对于缩放模型的容量至关重要。在将MOE集成到诸如夹子之类的多模型中,可以提高性能,但众所周知,培训这些模型具有挑战性且昂贵。我们提出了剪辑剪辑(剪辑),这是一种有效的替代培训策略,可将预先训练的密集夹模型转换为稀疏的MoE体系结构。通过对各种环境和辅助损失进行广泛的实验,我们证明了剪辑可显着降低训练的复杂性和成本。值得注意的是,我们稀疏的剪辑B/16…

来源:Apple机器学习研究

混合物(MOE)模型对于在控制推理成本的同时,对于缩放模型的容量至关重要。在将MOE集成到诸如夹子之类的多模型中,可以提高性能,但众所周知,培训这些模型具有挑战性且昂贵。我们提出了剪辑剪辑(剪辑),这是一种有效的替代培训策略,可将预先训练的密集夹模型转换为稀疏的MoE体系结构。通过对各种环境和辅助损失进行广泛的实验,我们证明了剪辑可显着降低训练的复杂性和成本。值得注意的是,我们稀疏的剪辑B/16型号,经过剪辑训练,在可可和Flickr30k文本对图像中分别以1个基准测试,其密集量优于其密集的7.2%和6.6%。它甚至超过了此任务上较大的夹子L/14模型,同时仅使用30%的推理失败。我们进一步证明了跨不同尺度的培训配方的普遍性,从而确立了稀疏的升级,作为一种实用且可扩展的方法,用于构建有效的高性能剪辑模型。