残差⽹络residualnetwork
1. 残差⽹络公式推导
其中x为上⼀层输出到该神经元的值;w为x传到该神经元经过的权重;y为x在某神经元内由激活函数求得的输出值。残差⽹络在神经⽹络中的表⽰如下图
注意,输⼊的w和x可以有多个分⽀,最后经过F汇总输出。关于残差⽹络的定义公式可以由下图看出含义:x在经过第⼀层和加权并经relu⾮线性变化与第⼆层加权后得到的F(x)+x,说明是⼀个线性堆叠,则这两层构成⼀个残差学习模块,⽽由残差模块构成的⽹络称为残差⽹络。
2. 残差⽹络的优点
以往的深度学习会由于梯度(gradient)过⼩出现梯度消失(vanish)(即梯度⼩于1时)与梯度爆炸(梯度⼤于1)的情况。梯度过⼩会使梯度在从⽬标函数向回传播时的训练误差极⼩;梯度过⼤时会导致模型训练出现“NaN”参数。有⼀些⽅法进⾏过优化,但是还是有随着层数加深的时候训练误差增⼤的情况。残差⽹络的好处在于当残差为0时,该层神经元只是对前层进⾏⼀次现⾏堆叠,使得⽹络性能不会下降,这是最差的情况,实际上残差不可能为0。