详细内容或原文请订阅后点击阅览
有限任务数据下结构化剪枝的迁移学习
这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。大型预训练模型在资源受限的应用程序中使用存在问题。幸运的是,任务感知的结构化修剪方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多特定于任务的数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少…
来源:Apple机器学习研究这篇论文被 NeurIPS 的高效自然语言和语音处理 (ENLSP-III) 研讨会接受。
大型预训练模型在资源受限的应用中使用存在问题。幸运的是,任务感知结构化剪枝方法提供了一种解决方案。这些方法通过以考虑最终任务的方式删除层和注意力头等结构单元来减小模型大小。然而,这些剪枝算法需要比通常可用的更多的任务特定数据。我们提出了一个将结构化剪枝与迁移学习相结合的框架,以减少对任务特定数据的需求。我们的实证结果回答了以下问题:应该如何将这两个任务结合起来?应该转移哪些参数?以及,在训练期间应该在什么时候引入迁移学习?利用这些见解,我们证明我们的框架可以产生经过剪枝的模型,并且在强基线上具有更好的泛化能力。