详细内容或原文请订阅后点击阅览
深度学习中跳跃连接的直观解释
什么是跳过连接,为什么我们需要它们以及如何将它们应用于 ResNet、DenseNet 和 UNet 等架构。
来源:AI夏令营如今,人们可以用深度学习实现无数的应用。然而,为了理解你在许多作品中看到的大量设计选择(例如跳过连接),了解一点反向传播的机制至关重要。
反向传播如果你在 2014 年尝试训练神经网络,你肯定会观察到所谓的梯度消失问题。简单来说:你在屏幕后面检查网络的训练过程,你看到的只是训练损失停止减少,但它仍然远离期望值。你整晚检查所有代码行,看看是否有问题,却找不到任何线索。相信我,这不是世界上最好的体验!
消失梯度问题更新规则和消失梯度问题
因此,让我们回顾一下无动量梯度下降的更新规则,假设 L 为损失函数,λ\lambdaλ 为学习率:
λ\lambdaλ λ\lambdaλ λ\lambdaΔwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi=−λ∂Δwi∂L
Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi=−λ∂Δwi∂L Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}} Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}