深度学习-目标检测评估指标P-R曲线、AP、mAP

更新时间:2023-07-14 21:55:55 阅读：评论：0

深度学习-⽬标检测评估指标P-R曲线、AP、mAP

基本概念

P-R曲线中，P为图中precision，即精准度，R为图中recall，即召回率。

富之岛Example

下⾯通过具体例⼦说明。

⾸先⽤训练好的模型得到所有测试样本的confidence score，每⼀类（如car）的confidence score保存到⼀个⽂件中（如comp1_cls_）。假设共有20个测试样本，每个的id，confidence score和ground truth label如下：

奇妙的大自然

接下来对confidence score排序，得到：

P-R曲线：药品质量管理制度

我们得到top-5的结果，前score最⾼的前5个样本，预测label为1，即：

此例中采⽤top-5评估，也可采⽤其他评估，如AP50，即当预测框与真实框的IoU值⼤于这个阈值时，该预测框才被认定为真阳性（True Positive, TP），反之就是假阳性（Fal Positive，FP）。

课题申请

在这个例⼦中，true positives就是指第4和第2张图⽚，fal positives就是指第13，19，6张图⽚。是相对于⽅框内的元素⽽⾔，在这个例⼦中，confidence score排在top-5之外的元素为fal negatives和true negatives，即：

其中，fal negatives是指第9，16，7，20张图⽚，true negatives是指第1,18,5,15,10,17,12,14,8,11,3张图⽚。

那么，这个例⼦中Precision=2/5=40%，意思是对于car这⼀类别，我们选定了5个样本，其中正确的有2个，即准确率为40%；

Recall=2/6=30%，意思是在所有测试样本中，共有6个car，但是因为我们只召回了2个，所以召回率为30%。此时为下图中第5个样本点。同理图中第⼀个样本点：P=1，R=1/6，第⼆个样本点，考虑前两个样本，P=1，R=2/6= 1/3。。。

这个例⼦的precision-recall曲线如下：

实际多类别分类任务中，我们通常不满⾜只通过top-5来衡量⼀个模型的好坏，⽽是需要知道从top-1到top-N（N是所有测试样本个数，本⽂中为20）对应的precision和recall。显然随着我们选定的样本

越来也多，recall⼀定会越来越⾼，⽽precision整体上会呈下降趋势。把recall当成横坐标，precision当成纵坐标，即可得到常⽤的precision-recall曲线。

AP计算：

最大客机接下来说说AP的计算，此处参考的是PASCAL VOC CHALLENGE的 2010年之前计算⽅法。⾸先设定⼀组阈值，[0, 0.1, 0.2, …, 1]。然后对于recall⼤于每⼀个阈值（⽐如recall>0.3），我们都会得到⼀个对应的最⼤precision。这样，我们就计算出了11个precision。AP即为这11个precision的平均值。这种⽅法英⽂叫做11-point interpolated average precision。

当然PASCAL VOC CHALLENGE⾃ 2010年后就换了另⼀种计算⽅法。新的计算⽅法假设这N个样本中有M个正例，那么我们会得到 M 个recall值（1/M, 2/M, ..., M/M），对于每个recall值r ，我们可以计算出对应（r' > r）的最⼤precision，然后对这 M个precision值取平均即得到最后的AP值。计算⽅法如下：

相应的Precision-Recall曲线（这条曲线是单调递减的）如下：

补充⼀点关于IOU的内容，PASCAL VOC⽐赛默认IOU为0.5，即计算的是mAP@0.5，coco⽐赛增加了IOU阈值，包括

mAP@0.5,mAP@0.75,AP(IOU at 0.5:0.05:0.95)。这⾥IOU的意思是，当预测框和gt box之间的IOU⼤于设定的阈值时标注该预测框为正例。

那么完整的检测结果评估过程应该为：

士为知己

1. 使⽤⾃⼰的算法得到了检测结果，获取了图像集中各检测框包含的⽬标的类别置信度及其位置信息；

2. 对每个类别的检测框应⽤NMS消除过于重叠的结果，这个NMS阈值可以⾃⼰设定；

3. 对每⼀个类别：

若某检测框与gt box之间的IOU超过了设定阈值(VOC就是0.5，COCO就是0.5：005：0.95)则将这样的检测框标注为正类，否则标注其为负类；

按照分类置信度从⾼到底排序，设定不同的score阈值时，求取查准率P和查全率R；

根据数据集的规则，求取当前类别的AP值，如按照VOC数据集2010之后的规则，就是R取时的各最⾼P值的均值；

临江仙4. 对所有类别的AP求均值，得到mAP；

5. 如果是COCO数据集，上⾯的mAP也只是针对某⼀IOU阈值的mAP，还应该对不同的IOU值重复1- 4的过程，最终再求均值，得到

朱祁镇的皇后

mAP@[.5,.95]。

AP衡量的是学出来的模型在每个类别上的好坏，mAP衡量的是学出的模型在所有类别上的好坏，得到AP后mAP的计算就变得很简单了，就是取所有AP的平均值。

[,⋯,]N 1N N

本文发布于:2023-07-14 21:55:55，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/1081618.html

上一篇：Pythondict格式化输出

下一篇：mysql查询每个学生的各科成绩，以及总分和平均分

标签：类别检测得到样本阈值结果

留言与评论（共有 0 条评论）