本文研究了最小描述长度(MDL)与神经网络中Grokking现象之间的关系,提供了有关突然泛化的信息理论观点。Grokking,在扩展培训后突然概括了模型,它挑战了神经网络学习动态的常规理解。我们假设由MDL量化的内部表示形式的组合是此过程的关键因素。为了测试这一点,我们引入了一种基于权重修剪的新型MDL估计技术,并将其应用于不同的数据集,包括模块化算术和置换任务。由于神经网络的复杂,高维质以及缺乏量化内部代表性的明确指标,这种方法是具有挑战性的。我们的实验揭示了MDL还原与改善的概括之间存在很强的相关性,而MDL过渡点通常在或与Grokking事件相吻合。我们观察到Grokking与非怪异场景中不同的MDL演化模式,其特征是快速减少MDL,然后在前者中持续概括。这些发现提供了有关Grokking信息理论基础的见解,并建议在训练过程中进行MDL监测可以预测即将泛化。我们的工作有助于更深入地了解神经网络中的学习动态,并为预测机器学习模型中的概括提供了新的工具。
主要关键词