我每 5 个步骤测量一次神经网络训练 10,000 次迭代 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

我每 5 个步骤测量一次神经网络训练 10,000 次迭代

2025年11月15日 14:00 33 Comments

图片来自 Pixabay.com 文章《我每 5 个步骤测量 10,000 次迭代的神经网络训练》一文首先出现在《走向数据科学》上。

来源:走向数据科学

神经网络如何学习。训练他们，看着损失下降，每个时期保存检查点。标准工作流程。然后我以 5 步为间隔（而不是纪元级别）测量训练动态，我自以为知道的一切都崩溃了。

开启本次旅程的问题：神经网络的容量是在训练过程中扩展的，还是在初始化时就固定下来的？直到 2019 年，我们都认为答案是显而易见的——参数是固定的，因此容量也必须是固定的。但安苏尼等人。发现了一些不可能的事情：有效的表征维度在训练过程中增加。杨等人。 2024 年证实了这一点。

增加

这改变了一切。如果学习空间在网络学习的同时扩展，我们如何才能机械地理解它实际上在做什么？

而

当我们训练 10,000 步的 DNN 时，我们过去每 100 或 200 步设置一次检查点。以 5 步为间隔进行测量会产生太多不易管理的记录。但这些高频检查点揭示了有关 DNN 如何学习的非常有价值的信息。

高频检查点提供以下信息：

是否可以从早期的训练错误中恢复（通常不能）为什么有些架构有效而另一些架构失败何时应该进行可解释性分析（剧透：比我们想象的早得多）如何设计更好的训练方法

早期训练错误是否可以恢复（通常不能）

为什么有些架构有效而另一些架构失败

何时应该进行可解释性分析（剧透：比我们想象的要早得多）

如何设计更好的培训方法

在一个应用研究项目中，我测量了高分辨率的 DNN 训练 — 每 5 步，而不是每 100 或 500 步。我使用了基本的 MLP 架构，其数据集与过去 10 年使用的数据集相同。

图 1. 实验设置我们使用 z 分数分析和滚动统计来检测离散转换： 图 1. 图2 图 3： 。

为什么？

管理的初始化训练测量扩展的想象的固定下来高分辨率应用研究应该知道的 10 学习的高频使用的固定的分辨率动态训练方法基本的检查点架构神经网络旅程的 DNN 有效的可能的为什么是否实验设置进行步为研究项目有价值早期的统计解释性数据集显而易见过程分析恢复实际上