resnet50代码_深度残差网络(ResNet)论文学习(附代码实现)

更新时间:2023-05-06 12:12:32 阅读: 评论:0

resnet50代码_深度残差⽹络(ResNet)论⽂学习(附代码实
现)
本⽂结合50层深度残差⽹络的实现学习何博⼠的⼤作-Deep Residual Learning for Image Recognition。理论上,深层⽹络结构包含了浅层⽹络结构所有可能的解空间,但是实际⽹络训练中,随着⽹络深度的
增加,⽹络的准确度出现饱和,甚⾄下降的现象,这个现象可以在下图直观看出来:56层的⽹络⽐20层⽹络效果还要差。但是这种退化并不是因为过拟合导致的,因为56层的神经⽹络的训练误差同样⾼。
这就是神经⽹络的退化现象。何博⼠提出的残差学习的⽅法解决了解决了神经⽹络的退化问题,在深度学习领域取得了巨⼤的成功。
1.Residual Networks
各个深度的神经⽹络的结构如下:
50层⽹络的结构实际上是把34层⽹络的2个3x3的卷积层替换成3个卷积层:1x1、3x3、1x1,可以看到50层的⽹络相对于34层的⽹络,效果上有不⼩的提升。
代码实现
ResNet 50代码实现的⽹络结构与上图50层的⽹络架构完全⼀致。对于深度较深的神经⽹络,BN必不可少,关于BN的介绍和实现可以参考以前的⽂章。
class ResNet50(object):
def __init__(lf, inputs, num_class=1000, is_training=True,
scope="resnet50"):
lf.inputs =inputs
lf.is_training = is_training
lf.num_class = num_class
with tf.variable_scope(scope):
# construct the model
net = conv2d(inputs, 64, 7, 2, scope="conv1") # -> [batch, 112, 112, 64]
net = lu(batch_norm(net, is_training=lf.is_training, scope="bn1"))
net = max_pool(net, 3, 2, scope="maxpool1")  # -> [batch, 56, 56, 64]
net = lf._block(net, 256, 3, init_stride=1, is_training=lf.is_training,
scope="block2")          # -> [batch, 56, 56, 256]
net = lf._block(net, 512, 4, is_training=lf.is_training, scope="block3")
# -> [batch, 28, 28, 512]
net = lf._block(net, 1024, 6, is_training=lf.is_training, scope="block4")
# -> [batch, 14, 14, 1024]
net = lf._block(net, 2048, 3, is_training=lf.is_training, scope="block5")
# -> [batch, 7, 7, 2048]
net = avg_pool(net, 7, scope="avgpool5")    # -> [batch, 1, 1, 2048]
net = tf.squeeze(net, [1, 2], name="SpatialSqueeze") # -> [batch, 2048]
lf.logits = fc(net, lf.num_class, "fc6")      # -> [batch, num_class]
lf.predictions = tf.nn.softmax(lf.logits)
2.Building Block
每个Block中往往包含多个⼦Block,每个⼦Block⼜有多个卷积层组成。每个Block的第⼀个⼦Block的第⼀个卷积层的stride=2,完成Feature Map的下采样的⼯作。
代码实现
def _block(lf, x, n_out, n, init_stride=2, is_training=True, scope="block"):
with tf.variable_scope(scope):
h_out = n_out // 4
out = lf._bottleneck(x, h_out, n_out, stride=init_stride,
is_training=is_training, scope="bottlencek1")
for i in range(1, n):
out = lf._bottleneck(out, h_out, n_out, is_training=is_training,
scope=("bottlencek%s" % (i + 1)))
return out
3. Bottleneck Architectures
在更深层(esNet-50/101/152)的神经⽹络中为了节省计算耗时, 作者对神经⽹络的架构进⾏了改造,将原有的两层3x3卷积层改造为三层卷积层:1x1,3x3,1x1。
The three layers are 1×1, 3×3, and 1×1 convolutions, where the 1×1 layers are responsible for reducing and then increasing (restoring)dimensions, leaving the 3×3 layer a bottleneck with smaller
input/output dimensions。
代码实现:
x: 是输⼊数据,格式为[BatchSize, ImageHeight,ImageWidth, ChannelNum];h_out: 卷积核个数;
n_out: Block的输出的卷积核个数;
stride: 卷积步长;
is_training: ⽤于Batch Normalization;
def _bottleneck(lf, x, h_out, n_out, stride=None, is_training=True, scope="bottleneck"):    """ A residual bottleneck unit"""
n_in = x.get_shape()[-1]
if stride is None:
stride = 1 if n_in == n_out el 2
with tf.variable_scope(scope):
h = conv2d(x, h_out, 1, stride=stride, scope="conv_1")
h = batch_norm(h, is_training=is_training, scope="bn_1")
h = lu(h)
h = conv2d(h, h_out, 3, stride=1, scope="conv_2")
h = batch_norm(h, is_training=is_training, scope="bn_2")
h = lu(h)
h = conv2d(h, n_out, 1, stride=1, scope="conv_3")
h = batch_norm(h, is_training=is_training, scope="bn_3")
if n_in != n_out:
shortcut = conv2d(x, n_out, 1, stride=stride, scope="conv_4")
shortcut = batch_norm(shortcut, is_training=is_training, scope="bn_4")
el:
shortcut = x
lu(shortcut + h)
4. Shortcuts
Identity Mapping是深度残差⽹络的⼀个核⼼思想,深度残差⽹络中Building Block表达公式如下:
x是Layer Input, y是未经过Relu激活函数的Layer Output,
是待学习的残差映射。
上式仅仅能处理
和x维度相同的情况,当⼆者维度不同的情况下应该怎么处理呢?
作者提出了两种处理⽅式: zero padding shortcut和 projection shortcut。并在实验中构造三种shortcut的⽅式:
A) 当数据维度增加时,采⽤zero padding进⾏数据填充;
B) 当数据维度增加时,采⽤projection的⽅式;数据维度不变化时,直接使⽤恒等映射;
C) 数据维度增加与否都采⽤projection的⽅式;
三种⽅式的对⽐效果如下:
可以看到效果排序如下: A < B < C,但是三者的差别并不是很⼤,所以作者得出⼀个结论: projection shortcut并不是解决退化问题的关键,所以为了避免projection带来的计算负担,论⽂中很少采⽤C作为shortcut的⽅案。上述代码中使⽤projection shortcut结合Identity shortcut的映射⽅案。
5.其它辅助函数的实现
5.1 变量初始化
fc_initializer = tf.contrib.layers.xavier_initializer
conv2d_initializer = tf.contrib.layers.xavier_initializer_conv2d
5.2 创建变量的辅助函数
# create weight variable
def create_var(name, shape, initializer, trainable=True):
_variable(name, shape=shape, dtype=tf.float32,
initializer=initializer, trainable=trainable)
5.3 卷积辅助函数
# conv2d layer
def conv2d(x, num_outputs, kernel_size, stride=1, scope="conv2d"):
num_inputs = x.get_shape()[-1]
with tf.variable_scope(scope):
kernel = create_var("kernel", [kernel_size, kernel_size,
num_inputs, num_outputs],
conv2d_initializer())
v2d(x, kernel, strides=[1, stride, stride, 1],
padding="SAME")

本文发布于:2023-05-06 12:12:32,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/97933.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:卷积   深度   神经
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图