蒸馏缩放法律

我们提出了一项蒸馏缩放法,该法律根据计算预算及其在学生和教师之间的分配来估算蒸馏模型性能。我们的发现通过为教师和学生启用计算最佳分配,以最大程度地提高学生表现,从而减轻与大规模蒸馏有关的风险。我们为两个关键情况提供了最佳的蒸馏食谱:当老师已经存在以及老师需要培训时。在涉及许多学生或现有教师的设置中,蒸馏的表现优于监督到计算水平的学习……

来源:Apple机器学习研究

我们提出了一项蒸馏缩放法,该法律根据计算预算及其在学生和教师之间的分配来估算蒸馏模型性能。我们的发现通过为教师和学生启用计算最佳分配,以最大程度地提高学生表现,从而减轻与大规模蒸馏有关的风险。我们为两个关键情况提供了最佳的蒸馏食谱:当老师已经存在以及老师需要培训时。在涉及许多学生或现有教师的设置中,蒸馏的表现优于监督的学习水平,该计算水平可预测地随着学生的身材而言。相反,如果只有一个学生要进行蒸馏而教师也需要培训,那么通常最好的学习是可取的。此外,我们对蒸馏的大规模研究增加了我们对过程的理解,并有助于为实验设计提供信息。

    †在Apple