详细内容或原文请订阅后点击阅览
揭示神经网络中学习子空间的利用等级
在这项工作中,我们研究了神经网络的学习权重如何很好地利用可用的空间。这个概念与容量有关,但还结合了网络架构与数据集的交互。大多数学习到的权重似乎是满秩的,因此不适合低秩分解。这误导性地暗示权重正在利用它们可用的整个空间。我们提出了一种简单的数据驱动转换,将权重投影到数据和权重相互作用的子空间上。这保留了功能映射……
来源:Apple机器学习研究本论文已被 ICML 2024 基础模型高效系统研讨会接受。
在这项工作中,我们研究了神经网络学习到的权重如何很好地利用可用的空间。这个概念与容量有关,但还结合了网络架构与数据集的交互。大多数学习到的权重似乎是满秩的,因此不适合低秩分解。这误导性地暗示权重正在利用可用的整个空间。我们提出了一种简单的数据驱动转换,将权重投影到数据和权重交互的子空间上。这保留了层的功能映射并揭示了其低秩结构。在我们的研究结果中,我们得出结论,大多数模型只利用了可用空间的一小部分。例如,对于在 ImageNet 上训练的 ViTB-16 和 ViTL-16,平均层利用率分别为 35% 和 20%。我们的变换分别将参数减少到 50% 和 25%,同时在微调后导致准确率下降不到 0.2%。我们还表明,自监督预训练将这种利用率提高到 70%,证明了其适用于下游任务。