Transform引入残差的目的-K6K4.com

随着网络深度的增加，训练变得愈加困难，这主要是因为在基于随机梯度下降的网络训练过程中，误差信号的多层反向传播非常容易引发“梯度弥散”（梯度过小会使回传的训练误差信号极其微弱）或者“梯度爆炸”（梯度过大导致模型出现NaN）的现象。目前一些特殊的权重初始化策略和批规范化(BN)等方法使这个问题得到了极大改善——网络可以正常训练了！！但是实际情形不容乐观。当模型收敛时，另外的问题又来了：随着网络深度的增加，训练误差没有降低反而升高。这一现象与直觉极其不符，浅层网络可以被训练优化到一个很好的解，那么对应的更深层的网络至少也可以，而不是更差。这一现象在一段时间内困扰着更深层卷积神经网络的设计、训练和应用。

残差模块：y=F(x,w)+x

标签：、面试

取消

回复