FocalLoss

更新时间:2023-07-27 03:19:50 阅读: 评论:0

FocalLoss
RBG和Kaiming⼤神的新作。
我们知道object detection的算法主要可以分为两⼤类:two-stage detector和one-stage detector。前者是指类似Faster
RCNN,RFCN这样需要region proposal的检测算法,这类算法可以达到很⾼的准确率,但是速度较慢。虽然可以通过减少proposal的数量或降低输⼊图像的分辨率等⽅式达到提速,但是速度并没有质的提升。后者是指类似YOLO,SSD这样不需要region proposal,直接回归的检测算法,这类算法速度很快,但是准确率不如前者。作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确率,同时不影响原有的速度。
既然有了出发点,那么就要找one-stage detector的准确率不如two-stage detector的原因,作者认为原因是:样本的类别不均衡导致的。我们知道在object detection领域,⼀张图像可能⽣成成千上万的candidate locations,但是其中只有很少⼀部分是包含object的,这就带来了类别不均衡。那么类别不均衡会带来什么后果呢?引⽤原⽂讲的两个后果:(1) training is inefficient as most locations are easy negatives that contribute no uful learning signal; (2) en mas, the easy negatives can overwhelm training and lead
to degenerate models. 什么意思呢?负样本数量太⼤,占总的loss的⼤部分,⽽且多是容易分类的,因此使得模型的优化⽅向并不是我们所希望的那样。其实先前也有⼀些算法来处理类别不均衡的问题,⽐如OHEM(online hard example mining),OHEM的主要思想可以⽤原⽂的⼀句话概括:In OHEM each example is scored by its loss, non-maximum suppression (nms) is then applied, and a minibatch is constructed with the highest-loss examples。OHEM算法虽然增加了错分类样本的权重,但是OHEM算法忽略了容易分类的样本。
因此针对类别不均衡问题,作者提出⼀种新的损失函数:focal loss,这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。为了证明focal loss的有效性,作者设计了⼀个den detector:RetinaNet,并且在训练时采⽤focal loss训练。实验证明RetinaNet不仅可以达到one-stage detector的速度,也能有two-stage detector的准确率。
focal loss的含义可以看如下Figure1,横坐标是pt,纵坐标是loss。CE(pt)表⽰标准的交叉熵公式,FL(pt)表⽰focal loss中⽤到的改进的交叉熵,可以看出和原来的交叉熵对⽐多了⼀个调制系数(modulating factor)。为什么要加上这个调制系数呢?⽬的是通过减少易分类样本的权重,从⽽使得模型在训练时更专注于难分类的样本。⾸先pt的范围是0到1,所以不管γ是多少,这个调制系数都是⼤于等于0的。易分类的样本再多,你的权重很⼩,那么对于total loss的共享也就不会太⼤。那么怎么
控制样本权重呢?举个例⼦,假设⼀个⼆分类,样本x1属于类别1的pt=0.9,样本x2属于类别1的pt=0.6,显然前者更可能是类别1,假设γ=1,那么对于pt=0.9,调制系数则为0.1;对于pt=0.6,调制系数则为0.4,这个调制系数就是这个样本对loss的贡献程度,也就是权重,所以难分的样本(pt=0.6)的权重更⼤。Figure1中γ=0的蓝⾊曲线就是标准的交叉熵损失。
华中科技大学校长Figure2是在COCO数据集上⼏个模型的实验对⽐结果。可以看看再AP和time的对⽐下,本⽂算法和其他one-stage和two-stage检测算法的差别。
看完实验结果和提出算法的出发点,接下来就要介绍focal loss了。在介绍focal loss之前,先来看看交叉熵损失,这⾥以⼆分类为例,p表⽰概率,公式如下:
打南边来了个喇嘛
狸尾草因为是⼆分类,所以y的值是正1或负1,p的范围为0到1。当真实label是1,也就是y=1时,假如某个样本x预测为1这个类的概率p=0.6,那么损失就是-log(0.6),注意这个损失是⼤于等于0的。如果p=0.9,那么损失就是-log(0.9),所以p=0.6的损失要⼤于p=0.9的损失,这很容易理解。
为了⽅便,⽤pt代替p,如下公式2:。这⾥的pt就是前⾯Figure1中的横坐标。
接下来介绍⼀个最基本的对交叉熵的改进,也将作为本⽂实验的baline,如下公式3。什么意思呢?增加了⼀个系数at,跟pt的定义类似,当label=1的时候,at=a;当label=-1的时候,at=1-a,a的范围也是0到1。因此可以通过设定a的值(⼀般⽽⾔假如1这个类的样本数⽐-1这个类的样本数多很多,那么a会取0到0.5来增加-1这个类的样本的权重)来控制正负样本对总的loss的共享权重。
显然前⾯的公式3虽然可以控制正负样本的权重,但是没法控制容易分类和难分类样本的权重,于是就有了focal loss:
这⾥的γ称作focusing parameter,γ>=0。
称为调制系数(modulating factor)
这⾥介绍下focal loss的两个重要性质:1、当⼀个样本被分错的时候,pt是很⼩的(请结合公式2,⽐如当y=1时,p要⼩于0.5才是错分类,此时pt就⽐较⼩,反之亦然),因此调制系数就趋于1,也就是说相⽐原来的loss是没有什么⼤的改变的。当pt趋于1的时候(此时分类正确⽽且是易分类样本),调制系数趋于0,也就是对于总的loss的贡献很⼩。2、当γ=0的时候,focal loss就是传统的交叉熵损失,当γ增加的时候,调制系数也会增加。
focal loss的两个性质算是核⼼,其实就是⽤⼀个合适的函数去度量难分类和易分类样本对总的损失的贡献。
作者在实验中采⽤的是公式5的focal loss(结合了公式3和公式4,这样既能调整正负样本的权重,⼜能控制难易分类样本的权重):
骑着蜗牛去旅行在实验中a的选择范围也很⼴,⼀般⽽⾔当γ增加的时候,a需要减⼩⼀点(实验中γ=2,a=0.25的效果最好)
疏远的意思贴⼀下RetinaNet的结构图:Figure3。因为⽹络结构不是本⽂的重点,所以这⾥就不详细介绍了,感兴趣的可以看论⽂的第4部分。
7号仓库
实验结果:
Table1是关于RetinaNet和Focal Loss的⼀些实验结果。(a)是在交叉熵的基础上加上参数a,a=0.5就表⽰传统的交叉熵,可以看出当a=0.75的时候效果最好,AP值提升了0.9。(b)是对⽐不同的参数γ和a的实验结果,可以看出随着γ的增加,AP提升⽐较明显。(d)通过和OHEM的对⽐可以看出最好的Focal Loss⽐最好的OHEM提⾼了3.2AP。这⾥OHEM1:3表⽰在通过OHEM得到的minibatch上强制positive和negative样本的⽐例为1:3,通过对⽐可以看出这种强制的操作并没有提升AP。(e)加⼊了运算时间的对⽐,可以和前⾯的Figure2结合起来看,速度⽅⾯也有优势!注意这⾥RetinaNet-101-800的AP是37.8,当把训练时间扩⼤1.5倍同时采⽤scale
jitter,AP可以提⾼到39.1,这就是全⽂和table2中的最⾼的39.1AP的由来。桂圆肉的功效与作用及禁忌
Figure4是对⽐forground和background样本在不同γ情况下的累积误差。纵坐标是归⼀化后的损失,横坐标是总的foreground或background样本数的百分⽐。可以看出γ的变化对正(forground)样本的累积误差的影响并不⼤,但是对于负(background)样本的累积误差的影响还是很⼤的(γ=2时,将近99%的background样本的损失都⾮常⼩)。
拼音声调
总结:
原⽂的这段话概括得很好:In this work, we identify class imbalance as the primary obstacle preventing one-stage object detectors from surpassing top-performing, two-stage methods, such as Faster R-CNN variants. To address this, we propo the focal loss which applies a modulating term t
o the cross entropy loss in order to focus learning on hard examples and down-weight the numerous easy negatives.

本文发布于:2023-07-27 03:19:50,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1098135.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   分类   权重   损失   算法   交叉   实验   类别
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图