详细内容或原文请订阅后点击阅览
当变形金刚歌唱时:采用 SpectralKD 进行基于文本的知识蒸馏
探索 Transformers 的频率指纹以指导更智能的知识蒸馏《当 Transformers Sing:采用 SpectralKD 进行基于文本的知识蒸馏》一文首先出现在 Towards Data Science 上。
来源:走向数据科学在研究意图分类的知识蒸馏问题时,我遇到了一个令人费解的障碍。我的设置涉及一个教师模型,即 RoBERTa-large(根据我的意图分类进行微调)和一个学生模型,我试图在不损失太多准确性的情况下训练该模型。
我尝试了多种映射技术,将每个第二层连接到学生层,将两个教师层平均为一个,甚至分配自定义权重,例如给(0.3 到 l1,0.7 到 l2)。但无论我尝试哪种组合,老师的准确性都无法与学生模型相匹配。
从那时起,我开始探索如何将信息最丰富的图层映射到我的学生模型,以便学生能够最大限度地提高其表现。我想要一种方法来量化教师模型的哪一层对于蒸馏真正重要。
如何将信息最丰富的图层映射到我的学生模型,以便学生能够最大限度地提高其表现 到我的学生模型,以便学生能够最大限度地发挥其表现在这次搜索中,我偶然发现了一篇引人入胜的论文——“SpectralKD:通过光谱分析解释和提取视觉变换器的统一框架”,该论文解决了类似的问题,但在图像领域。作者使用谱分析方法(Spectral KD)来更智能地调整教师和学生模型。
—“SpectralKD:通过光谱分析解释和提取视觉变换器的统一框架”,它解决了类似的问题,但在图像领域。作者使用谱分析方法(Spectral KD)来更智能地调整教师和学生模型 SpectralKD:通过光谱分析解释和提炼视觉 Transformer 的统一框架出于好奇,我决定将这个想法应用到文本数据中 – 嘭!!!,它确实有效!我的学生模型第一次开始几乎像老师一样思考。
BOOM!!!,它真的起作用了!