详细内容或原文请订阅后点击阅览
我每 5 个步骤测量一次神经网络训练 10,000 次迭代
图片来自 Pixabay.com 文章《我每 5 个步骤测量 10,000 次迭代的神经网络训练》一文首先出现在《走向数据科学》上。
来源:走向数据科学神经网络如何学习。训练他们,看着损失下降,每个时期保存检查点。标准工作流程。然后我以 5 步为间隔(而不是纪元级别)测量训练动态,我自以为知道的一切都崩溃了。
开启本次旅程的问题:神经网络的容量是在训练过程中扩展的,还是在初始化时就固定下来的?直到 2019 年,我们都认为答案是显而易见的——参数是固定的,因此容量也必须是固定的。但安苏尼等人。发现了一些不可能的事情:有效的表征维度在训练过程中增加。杨等人。 2024 年证实了这一点。
增加这改变了一切。如果学习空间在网络学习的同时扩展,我们如何才能机械地理解它实际上在做什么?
而高频训练检查点
当我们训练 10,000 步的 DNN 时,我们过去每 100 或 200 步设置一次检查点。以 5 步为间隔进行测量会产生太多不易管理的记录。但这些高频检查点揭示了有关 DNN 如何学习的非常有价值的信息。
高频检查点提供以下信息:
- 是否可以从早期的训练错误中恢复(通常不能)为什么有些架构有效而另一些架构失败何时应该进行可解释性分析(剧透:比我们想象的早得多)如何设计更好的训练方法
在一个应用研究项目中,我测量了高分辨率的 DNN 训练 — 每 5 步,而不是每 100 或 500 步。我使用了基本的 MLP 架构,其数据集与过去 10 年使用的数据集相同。
为什么?
1