为什么十年前的残留连接仍然为所有人工智能提供动力(以及为什么这是一个问题)

近十年来,神经网络的这一部分几乎没有变化。 DeepSeek 正试图重塑它。这篇文章《为什么十年前的残留连接仍然为所有人工智能提供动力(以及为什么这是一个问题)》首先出现在《走向数据科学》上。

来源:走向数据科学

1.

在过去的十年中,深度学习作为一个领域已经取得了相当大的发展,无论是硬件的计算能力还是利用该硬件的架构背后的独创性。但如果你仔细思考一下,就会发现底层架构在几个关键领域保持了一致。我们已经看到从卷积网络到为当今大型语言模型提供支持的新 Transformer 架构的巨大转变,但这些网络将信息从一层路由到另一层的方式并没有发生太大变化。

最近,DeepSeek-AI 的研究人员发布了一篇题为“mHC:Manifold-Constrained Hyper-Connections”的论文(Xie et al., 2025b)1,提出对该路由系统进行全新的重新设计。为了真正理解他们提出的解决方案,让我们看看信号传播在过去几代模型中是如何演变的,以及为什么当前的方法遇到了困难。

2. 主干网:标准剩余连接

首先,为了理解作者试图解决的具体问题,我们需要谈谈这一切的开始——标准残差连接(He et al., 2015)2。残差连接于 2015 年随 ResNets 一起推出,可以说是每个 AI 模型中使用的最重要的架构设计选择之一。

从数学上讲,它看起来像这样:

简单来说就是一层的最终输出是它的输出和它最初得到的输入之和。这里的关键部分是残差流中的 x 项,我们称之为恒等映射。这很重要,因为它充当梯度信号从开始到结束流经整个网络的不间断路径。这一特性正是防止梯度在训练过程中消失或爆炸的原因,使我们能够成功地训练数百层的模型,同时仍然确保每一层有效地学习和更新自身。

2.1 标准剩余连接的问题

7. 参考文献