深度学习中跳跃连接的直观解释

什么是跳过连接,为什么我们需要它们以及如何将它们应用于 ResNet、DenseNet 和 UNet 等架构。

来源:AI夏令营

如今,人们可以用深度学习实现无数的应用。然而,为了理解你在许多作品中看到的大量设计选择(例如跳过连接),了解一点反向传播的机制至关重要。

反向传播

如果你在 2014 年尝试训练神经网络,你肯定会观察到所谓的梯度消失问题。简单来说:你在屏幕后面检查网络的训练过程,你看到的只是训练损失停止减少,但它仍然远离期望值。你整晚检查所有代码行,看看是否有问题,却找不到任何线索。相信我,这不是世界上最好的体验!

消失梯度问题

更新规则和消失梯度问题

因此,让我们回顾一下无动量梯度下降的更新规则,假设 L 为损失函数,λ\lambdaλ 为学习率:

λ\lambdaλ λ\lambdaλ λ\lambda λ\lambda λ\lambda λ\lambda λ \lambda λ λ λ wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i}wi′​=wi​+Δwi​ wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i}wi′​=wi​+Δwi​ wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwi wi′ w i = wi w i + Δ wi w i w_{i}' = w_{i} + \Delta w_{i} wi′​=wi​+Δwi​ wi′​= wi′​ w i′​ i′​ i′​ i′ i i i i = wi​+ wi​ w i​ i​ i​ i i i i + Δwi​ Δ wi​ w i​ i​ i​ i i i i 其中 Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi​=−λ∂Δwi​∂L​

Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi​=−λ∂Δwi​∂L​

Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi​=−λ∂Δwi​∂L​ Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}} Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}} Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}} Δwi=−λ∂L∂Δwi Δ wi w i = λ ∂L∂Δwi L ∂Δwi Δ wi w i Δwi​=−λ∂Δwi​∂L​ Δwi​= Δ wi​ w i​ i​ i​ i i