我每 5 个步骤测量一次神经网络训练 10,000 次迭代

图片来自 Pixabay.com 文章《我每 5 个步骤测量 10,000 次迭代的神经网络训练》一文首先出现在《走向数据科学》上。

来源:走向数据科学

神经网络如何学习。训练他们,看着损失下降,每个时期保存检查点。标准工作流程。然后我以 5 步为间隔(而不是纪元级别)测量训练动态,我自以为知道的一切都崩溃了。

开启本次旅程的问题:神经网络的容量是在训练过程中扩展的,还是在初始化时就固定下来的?直到 2019 年,我们都认为答案是显而易见的——参数是固定的,因此容量也必须是固定的。但安苏尼等人。发现了一些不可能的事情:有效的表征维度在训练过程中增加。杨等人。 2024 年证实了这一点。

增加

这改变了一切。如果学习空间在网络学习的同时扩展,我们如何才能机械地理解它实际上在做什么?

高频训练检查点

当我们训练 10,000 步的 DNN 时,我们过去每 100 或 200 步设置一次检查点。以 5 步为间隔进行测量会产生太多不易管理的记录。但这些高频检查点揭示了有关 DNN 如何学习的非常有价值的信息。

高频检查点提供以下信息:

    是否可以从早期的训练错误中恢复(通常不能)为什么有些架构有效而另一些架构失败何时应该进行可解释性分析(剧透:比我们想象的早得多)如何设计更好的训练方法
  • 早期训练错误是否可以恢复(通常不能)
  • 为什么有些架构有效而另一些架构失败
  • 何时应该进行可解释性分析(剧透:比我们想象的要早得多)
  • 如何设计更好的培训方法
  • 在一个应用研究项目中,我测量了高分辨率的 DNN 训练 — 每 5 步,而不是每 100 或 500 步。我使用了基本的 MLP 架构,其数据集与过去 10 年使用的数据集相同。

    图 1. 实验设置我们使用 z 分数分析和滚动统计来检测离散转换:
    图 1. 图2 图 3:

    为什么?

    1