当变形金刚歌唱时：采用 SpectralKD 进行基于文本的知识蒸馏 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

当变形金刚歌唱时：采用 SpectralKD 进行基于文本的知识蒸馏

2025年10月23日 17:12 33 Comments

探索 Transformers 的频率指纹以指导更智能的知识蒸馏《当 Transformers Sing：采用 SpectralKD 进行基于文本的知识蒸馏》一文首先出现在 Towards Data Science 上。

来源:走向数据科学

在研究意图分类的知识蒸馏问题时，我遇到了一个令人费解的障碍。我的设置涉及一个教师模型，即 RoBERTa-large（根据我的意图分类进行微调）和一个学生模型，我试图在不损失太多准确性的情况下训练该模型。

我尝试了多种映射技术，将每个第二层连接到学生层，将两个教师层平均为一个，甚至分配自定义权重，例如给（0.3 到 l1，0.7 到 l2）。但无论我尝试哪种组合，老师的准确性都无法与学生模型相匹配。

从那时起，我开始探索如何将信息最丰富的图层映射到我的学生模型，以便学生能够最大限度地提高其表现。我想要一种方法来量化教师模型的哪一层对于蒸馏真正重要。

如何将信息最丰富的图层映射到我的学生模型，以便学生能够最大限度地提高其表现 到我的学生模型，以便学生能够最大限度地发挥其表现

在这次搜索中，我偶然发现了一篇引人入胜的论文——“SpectralKD：通过光谱分析解释和提取视觉变换器的统一框架”，该论文解决了类似的问题，但在图像领域。作者使用谱分析方法（Spectral KD）来更智能地调整教师和学生模型。

—“SpectralKD：通过光谱分析解释和提取视觉变换器的统一框架”，它解决了类似的问题，但在图像领域。作者使用谱分析方法（Spectral KD）来更智能地调整教师和学生模型 SpectralKD：通过光谱分析解释和提炼视觉 Transformer 的统一框架

出于好奇，我决定将这个想法应用到文本数据中 – 嘭！！！，它确实有效！我的学生模型第一次开始几乎像老师一样思考。

BOOM！！！，它真的起作用了！

来源：作者 图层强度图 RoBERTa-大 一维 FFT

学生分类的光谱分析变换器提高限度根据图层类似的 RoBERTa SpectralKD 框架模型的作者视觉能够教师意图丰富的映射模型问题文本数据起作用准确性