为什么十年前的残留连接仍然为所有人工智能提供动力（以及为什么这是一个问题） XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

为什么十年前的残留连接仍然为所有人工智能提供动力（以及为什么这是一个问题）

2026年6月12日 16:30 33 Comments

近十年来，神经网络的这一部分几乎没有变化。 DeepSeek 正试图重塑它。这篇文章《为什么十年前的残留连接仍然为所有人工智能提供动力（以及为什么这是一个问题）》首先出现在《走向数据科学》上。

来源:走向数据科学

1.

在过去的十年中，深度学习作为一个领域已经取得了相当大的发展，无论是硬件的计算能力还是利用该硬件的架构背后的独创性。但如果你仔细思考一下，就会发现底层架构在几个关键领域保持了一致。我们已经看到从卷积网络到为当今大型语言模型提供支持的新 Transformer 架构的巨大转变，但这些网络将信息从一层路由到另一层的方式并没有发生太大变化。

最近，DeepSeek-AI 的研究人员发布了一篇题为“mHC：Manifold-Constrained Hyper-Connections”的论文（Xie et al., 2025b）1，提出对该路由系统进行全新的重新设计。为了真正理解他们提出的解决方案，让我们看看信号传播在过去几代模型中是如何演变的，以及为什么当前的方法遇到了困难。

2. 主干网：标准剩余连接

首先，为了理解作者试图解决的具体问题，我们需要谈谈这一切的开始——标准残差连接（He et al., 2015）2。残差连接于 2015 年随 ResNets 一起推出，可以说是每个 AI 模型中使用的最重要的架构设计选择之一。

从数学上讲，它看起来像这样：

简单来说就是一层的最终输出是它的输出和它最初得到的输入之和。这里的关键部分是残差流中的 x 项，我们称之为恒等映射。这很重要，因为它充当梯度信号从开始到结束流经整个网络的不间断路径。这一特性正是防止梯度在训练过程中消失或爆炸的原因，使我们能够成功地训练数百层的模型，同时仍然确保每一层有效地学习和更新自身。

2.1 标准剩余连接的问题

7. 参考文献

领域 2015 当前的新设计背后的参考文献模型过去的输入残差硬件的问题计算能力路由梯度训练 et 关键提出的一层重要的为什么使用的设计选择支持的 al 连接的开始研究人员标准 AI 架构全新的网络爆炸的