当变形金刚歌唱时:采用 SpectralKD 进行基于文本的知识蒸馏

探索 Transformers 的频率指纹以指导更智能的知识蒸馏《当 Transformers Sing:采用 SpectralKD 进行基于文本的知识蒸馏》一文首先出现在 Towards Data Science 上。

来源:走向数据科学

在研究意图分类的知识蒸馏问题时,我遇到了一个令人费解的障碍。我的设置涉及一个教师模型,即 RoBERTa-large(根据我的意图分类进行微调)和一个学生模型,我试图在不损失太多准确性的情况下训练该模型。

我尝试了多种映射技术,将每个第二层连接到学生层,将两个教师层平均为一个,甚至分配自定义权重,例如给(0.3 到 l1,0.7 到 l2)。但无论我尝试哪种组合,老师的准确性都无法与学生模型相匹配。

从那时起,我开始探索如何将信息最丰富的图层映射到我的学生模型,以便学生能够最大限度地提高其表现。我想要一种方法来量化教师模型的哪一层对于蒸馏真正重要。

如何将信息最丰富的图层映射到我的学生模型,以便学生能够最大限度地提高其表现 到我的学生模型,以便学生能够最大限度地发挥其表现

在这次搜索中,我偶然发现了一篇引人入胜的论文——“SpectralKD:通过光谱分析解释和提取视觉变换器的统一框架”,该论文解决了类似的问题,但在图像领域。作者使用谱分析方法(Spectral KD)来更智能地调整教师和学生模型。

—“SpectralKD:通过光谱分析解释和提取视觉变换器的统一框架”,它解决了类似的问题,但在图像领域。作者使用谱分析方法(Spectral KD)来更智能地调整教师和学生模型 SpectralKD:通过光谱分析解释和提炼视觉 Transformer 的统一框架

出于好奇,我决定将这个想法应用到文本数据中 – 嘭!!!,它确实有效!我的学生模型第一次开始几乎像老师一样思考。

BOOM!!!,它真的起作用了!
来源:作者
图层强度图 RoBERTa-大 一维 FFT