CornerNet详解

更新时间:2023-05-09 20:43:58 阅读：评论：0

CornerNet详解

⼀、⽹络结构

⾸先1个7×7的卷积层将输⼊图像尺⼨缩⼩为原来的1/4（论⽂中输⼊图像⼤⼩是511×511，缩⼩后得到128×128⼤⼩的输出）。

然后经过特征提取⽹络（backbone network）提取特征，该⽹络采⽤hourglass network，该⽹络通过串联多个hourglass module组成（Figure4中的hourglass network由2个hourglass module组成），每个hourglass module都是先通过⼀系列的降采样操作缩⼩输⼊的⼤⼩，然后通过上采样恢复到输⼊图像⼤⼩，因此该部分的输出特征图⼤⼩还是128×128，整个hourglass network的深度是104层。

hourglass module后会有两个输出分⽀模块，分别表⽰左上⾓点预测分⽀和右下⾓点预测分⽀，每个分⽀模块包含⼀个corner pooling层和3个输出分别为：heatmaps、embeddings和offts。这三个输出的含义如下，其中：

1、heatmaps是输出预测⾓点信息，可以⽤维度为CHW的特征图表⽰，其中C表⽰⽬标的类别（注意：没有背景类），这个特征图的每个通道都是⼀个mask，mask的每个值（范围为0到1，论⽂中写的该mask是binary mask，也就是0或1，个⼈感觉是笔误，预测值应该是0到1，否则后⾯公式1计算损失函数时就没有意思了）表⽰该点是⾓点的分数；

2、embeddings⽤来对预测的corner点做group，也就是找到属于同⼀个⽬标的左上⾓⾓点和右下⾓⾓点；

3、offts⽤来对预测框做微调，这是因为从输⼊图像中的点映射到特征图时有量化误差，offts就是⽤来输出这些误差信息。

整个算法的整体结构如下：

放⼀个⽹上的tensorflow的代码版本的具体实现：

class NetWork():

def __init__(lf,pull_weight=0.1, push_weight=0.1, offt_weight=1):

lf.n_deep = 5

lf.n_dims = [256, 256, 384, 384, 384, 512]

lf.n_res = [2, 2, 2, 2, 2, 4]

lf.out_dim = 80

lf.pull_weight = pull_weight

lf.push_weight = push_weight

lf.offt_weight = offt_weight

lf.focal_loss = focal_loss

lf.tag_loss = tag_loss

lf.offt_loss = offt_loss

def corner_net(lf,img,gt_tag_tl=None,gt_tag_br=None,is_training=True,scope='CornerNet'):

with tf.variable_scope(scope):

outs=[]

test_outs=[]

start_del.start_conv(img,is_training=is_training)#[b,128,128,256]

with tf.variable_scope('inter_supervi'):

hourglass_del.hourglass(start_layer,lf.n_deep,lf.n_res,lf.n_dims,is_training=is_training)#[b,128,128,256]

hinge_del.hinge(hourglass_1,256,256,is_training=is_training)

top_left_is,bottom_right__pooling(hinge_is,256,256,is_training=is_training)

#top_left

heat_tl_del.heat(top_left_is,256,lf.out_dim,scope='heat_tl')

tag_tl_del.tag(top_left_is,256,1,scope='tag_tl')

if not gt_tag_tl is None:

tag_tl_is=map_to_vector(tag_tl_is,gt_tag_tl)

offt_tl_del.offt(top_left_is,256,2,scope='offt_tl')

if not gt_tag_tl is None:

offt_tl_is=map_to_vector(offt_tl_is,gt_tag_tl)

#bottom_right

heat_br_del.heat(bottom_right_is,256,lf.out_dim,scope='heat_br')

tag_br_del.tag(bottom_right_is,256,1,scope='tag_br')

if not gt_tag_br is None:

tag_br_is=map_to_vector(tag_br_is,gt_tag_br)

offt_br_del.offt(bottom_right_is,256,2,scope='offt_br')

if not gt_tag_br is None:

offt_br_is=map_to_vector(offt_br_is,gt_tag_br)

with tf.variable_scope('master_branch'):

del.inter(start_layer,hinge_is,256,is_training=is_training)

hourglass_del.hourglass(inter,lf.n_deep,lf.n_res,lf.n_dims,is_training=is_training)#[b,128,128,256]

del.hinge(hourglass_2,256,256,is_training=is_training)

top_left,bottom__pooling(hinge,256,256,is_training=is_training)

#top_left

heat_del.heat(top_left,256,lf.out_dim,scope='heat_tl')

tag_tl_del.tag(top_left,256,1,scope='tag_tl')

if not gt_tag_tl is None:

tag_tl=map_to_vector(tag_tl_test,gt_tag_tl)

offt_tl_del.offt(top_left,256,2,scope='offt_tl')

if not gt_tag_tl is None:

offt_tl=map_to_vector(offt_tl_test,gt_tag_tl)

#bottom_right

heat_del.heat(bottom_right,256,lf.out_dim,scope='heat_br')

tag_br_del.tag(bottom_right,256,1,scope='tag_br')

if not gt_tag_br is None:

tag_br=map_to_vector(tag_br_test,gt_tag_br)

offt_br_del.offt(bottom_right,256,2,scope='offt_br')

if not gt_tag_br is None:

offt_br=map_to_vector(offt_br_test,gt_tag_br)

outs=[heat_tl_is,heat_br_is,tag_tl_is,tag_br_is,offt_tl_is,offt_br_is,heat_tl,heat_br,tag_tl,tag_br,offt_tl,offt_br]

test_outs=[heat_tl,heat_br,tag_tl_test,tag_br_test,offt_tl_test,offt_br_test]

return outs,test_outs

⼆、Heatmaps

第⼀个输出是headmaps，也就是预测⾓点的位置。loss函数如下：

公式1是针对⾓点预测（headmaps）的损失函数，整体上是改良版的focal loss。⼏个参数的含义：pcij表⽰预测的heatmaps在第c个通道（类别c）的(i,j)位置的值，ycij表⽰对应位置的ground truth，N表⽰⽬标的数量。ycij=1时候的损失函数容易理解，就是focal

loss，α参数⽤来控制难易分类样本的损失权重；ycij等于其他值时表⽰(i,j)点不是类别c的⽬标⾓点，照理说此时ycij应该是0（⼤部分算法都是这样处理的），但是这⾥ycij不是0，⽽是⽤基于ground truth⾓点的⾼斯分布计算得到，因此距离ground truth⽐较近的(i,j)点的ycij 值接近1，这部分通过β参数控制权重，这是和focal loss的差别。为什么对不同的负样本点⽤不同权重的损失函数呢？这是因为靠近ground truth的误检⾓点组成的预测框仍会和ground truth有较⼤的重叠⾯积，如Figure5所⽰。

Figure5是关于对不同负样本点的损失函数采取不同权重值的原因。红⾊实线框是ground truth；橘⾊圆圈是根据ground truth的左上⾓⾓点、右下⾓⾓点和设定的半径值画出来的，半径是根据圆圈内的⾓点组成的框和ground truth的IOU值⼤于0.7⽽设定的，圆圈内的点的数值是以圆⼼往外呈⼆维的⾼斯分布；⽩⾊虚线是⼀个预测框，可以看出这个预测框的两个⾓点和ground truth并不重合，但是该预测框基本框住了⽬标，因此是有⽤的预测框，所以要有⼀定权重的损失返回，这就是为什么要对不同负样本点的损失函数采取不同权重值的原因。

为什么对不同的负样本点⽤不同权重的损失函数呢？这是因为靠近ground truth的误检顶点组成的预测框仍会和ground truth有较⼤的重叠⾯积，如图5所⽰，是关于对不同负样本点的损失函数采取不同权重值的原因。对于每个顶点，只有⼀个ground truth，其他位置都是负样本。红⾊实线框是ground truth，绿⾊虚线是⼀个预测框，可以看出这个预测框的两个⾓点和ground truth并不重合，但是该预测框基本框住了⽬标，因此是有⽤的预测框，所以要有⼀定权重的损失返回，这就是为什么要对不同负样本点的损失函数采取不同权重值的原因。具体来讲是这样的：在训练过程，模型减少负样本，在每个ground-truth顶点设定半径r区域内都是正样本，这是因为落在半径r区域内的顶点依然可以⽣成有效的边界定位框，橘⾊圆圈就是根据ground truth的左上⾓顶点、右下⾓顶点和设定的半径值画出来的，半径是根据圆圈内的⾓点组成的框和ground truth的IOU值⼤于0.7⽽设定的，圆圈内的点的数值是以圆⼼往外呈⼆维的⾼斯分布exp(-2+y

(x2)/2σ^2),σ=1/3设置的，其中，中⼼坐标是标注的⾓点定位。

三、Embedding（group corner）

前⾯介绍了关于⾓点的检测，在那部分中对⾓点的预测都是独⽴的，不涉及⼀个⽬标的⼀对⾓点的概念，因此如何找到⼀个⽬标的两个⾓点就是第三个输出embedding做的⼯作。这部分是受associative embedding那篇⽂章的启发，简⽽⾔之就是基于不同⾓点的embedding vector之间的距离找到每个⽬标的⼀对⾓点，如果⼀个左上⾓⾓点和⼀个右下⾓⾓点属于同⼀个⽬标，那么⼆者的embedding vector之间的距离应该很⼩。

embedding这部分的训练是通过两个损失函数实现的，etk表⽰属于k类⽬标的左上⾓⾓点的embedding vector，ebk表⽰属于k类⽬标的右下⾓⾓点的embedding vector，ek表⽰etk和ebk的均值。公式4⽤来缩⼩属于同⼀个⽬标（k类⽬标）的两个⾓点的embedding

vector（etk和ebk）距离。公式5⽤来扩⼤不属于同⼀个⽬标的两个⾓点的embedding vector距离。

四、offt

从输⼊图像到特征图之间会有尺⼨缩⼩，假设缩⼩倍数是n，那么输⼊图像上的(x,y)点对应到特征图上

相应的值，但是取整会带来精度丢失，这尤其影响⼩尺⼨⽬标的回归，Faster RCNN中的 ROI Pooling也是有类似的精度丢失问题。所以通过公式2计算offt，然后通过公式3的smooth L1损失函数监督学习该参数，和常见的⽬标检测算法中的回归⽀路类似。

这个值和⽬标检测算法中预测的offt类似却完全不⼀样，说类似是因为都是偏置信息，说不⼀样是因为在⽬标检测算法中预测的offt是表⽰预测框和anchor之间的偏置，⽽这⾥的offt是表⽰在取整计算时丢失的精度信息，也就是公式2所表达的内容。

五、Corner Pooling

本文发布于:2023-05-09 20:43:58，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/875882.html

上一篇：关于党史的主题教育党课讲稿【六篇】

下一篇：在党支部党课讲话稿【三篇】