深度学习中跳跃连接的直观解释 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

深度学习中跳跃连接的直观解释

2020年3月23日 00:00 33 Comments

什么是跳过连接，为什么我们需要它们以及如何将它们应用于 ResNet、DenseNet 和 UNet 等架构。

来源:AI夏令营

如今，人们可以用深度学习实现无数的应用。然而，为了理解你在许多作品中看到的大量设计选择（例如跳过连接），了解一点反向传播的机制至关重要。

反向传播

如果你在 2014 年尝试训练神经网络，你肯定会观察到所谓的梯度消失问题。简单来说：你在屏幕后面检查网络的训练过程，你看到的只是训练损失停止减少，但它仍然远离期望值。你整晚检查所有代码行，看看是否有问题，却找不到任何线索。相信我，这不是世界上最好的体验！

消失梯度问题

更新规则和消失梯度问题

因此，让我们回顾一下无动量梯度下降的更新规则，假设 L 为损失函数，λ\lambdaλ 为学习率：

λ\lambdaλ λ\lambdaλ λ\lambda

λ\lambda

λ\lambda λ\lambda λ \lambda λ λ λ wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i}wi′=wi+Δwi wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i}wi′=wi+Δwi wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i}

wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i}

wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwiw_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwi wi′ w i ′ = wi w i + Δ wi w i w_{i}' = w_{i} + \Delta w_{i} wi′=wi+Δwi wi′= wi′ w i′ i′ i′ i′ i i i i ′ ′ ′ ′ = wi+ wi w i i i i i i i + Δwi Δ wi w i i i i i i i 其中 Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi=−λ∂Δwi∂L

Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi=−λ∂Δwi∂L

Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}Δwi=−λ∂Δwi∂L Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}} Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}

Δwi=−λ∂L∂Δwi\Delta w_{i} = - \lambda \frac{\partial L}{\partial \Delta w_{i}}

Δwi=−λ∂L∂Δwi Δ wi w i = − λ ∂L∂Δwi ∂ L ∂Δwi ∂ Δ wi w i Δwi=−λ∂Δwi∂L Δwi= Δ wi w i i i i i

wiwi 梯度看到反向传播训练 frac 网络了解 iiii lambda Delta wiw 学习 partial 消失损失问题 wi 检查

深度学习中跳跃连接的直观解释

更新规则和消失梯度问题

其他外部链接

Tags

XiaoMi-AI