残差连接缓解梯度消失的含义;残差连接的真正含义:F(x) = y - x ;y=F(x)+x
残差连接缓解梯度消失的含义
目录
- 残差连接缓解梯度消失的含义
- 举例说明
- 残差连接的真正含义:F(x) = y - x ;y=F(x)+x
在深度学习中,梯度消失是指在深层神经网络反向传播过程中,梯度在经过多层传递后变得极小,趋近于零 ,导致前面层的参数难以更新,模型难以训练。
残差连接是在神经网络中添加的一种“跳跃连接”(skip connection) ,允许梯度在反向传播时不经过某些层的复杂计算,直接传递到更前面的层,从而缓解梯度消失问题。
举例说明
假设我们有一个10层的神经网络来识别手写数字,每一层都对输入进行一些线性变换和激活函数处理。在反向传播时,梯度需要从第10层往第1层传递来更新参数。
在没有残差连接的普通神经网络中,梯度在每一层传递时都要乘以该层权重的导数。如果权重初始化得比较小,或者激活函数(如sigmoid函数 )在某些区域导数很小,那么经过多层传递后,梯度就会不断变小。
比如,假设每一层梯度传递时都衰减为原来的0.5 ,那么经过10层后,梯度就会衰减到初始值的