首页 > 美文鉴赏

评价指标——P，AP，MAP

更新时间:2023-07-27 03:41:11 阅读：评论：0

评价指标——P，AP，MAP

P：precision，预测正确的个数/测试总个数

AP：average precision，每⼀类别P值的平均值

MAP：mean average precision，对所有类别的AP取均值

×××××注意：这⾥的P与预测顺序有关。

例如：假设有两个查询，查询1有4个相关⽂档，查询2有5个相关⽂档。某系统对查询1检索出4个相关⽂档，其rank分别为1,2,4,7；对于查询2检索出3个相关⽂档，其rank分别为1,3,5。

对于查询1：哪的装修公司好

P1=1/1，P2=2/2，P3=3/4，P4=4/7

AP1=(1/1+2/2+3/4+4/7)/4=0.83

对于查询2：

P=1/1，P2=2/3, P3=3/5

qq设备锁

AP2=(1/1+2/3+3/5)/5=0.45

我和我的家乡下载于是有：MAP=（AP1+AP2）/2 = (0.83+0.45)/ 2=0.64

————————特别的，对多标签图像分类⽽⾔———————

转⾃

久久美多标签图像分类（Multi-label Image Classification）任务中图⽚的标签不⽌⼀个，因此评价不能⽤普通单标签图像分类的标准，即mean accuracy，该任务采⽤的是和信息检索中类似的⽅法—mAP（mean Average Precision）。mAP虽然字⾯意思和mean accuracy看起来差不多，但是计算⽅法要繁琐得多，以下是mAP的计算⽅法：

⾸先⽤训练好的模型得到所有测试样本的confidence score，每⼀类（如car）的confidence score保存到⼀个⽂件中（如comp1_cls_）。假设共有20个测试样本，每个的id，confidence score和ground truth label如下：

接下来对confidence score排序，得到：

这张表很重要，接下来的precision和recall都是依照这个表计算的

然后计算precision和recall，这两个标准的定义如下：

上图⽐较直观，圆圈内（true positives + fal positives）是我们选出的元素，它对应于分类任务中我们取出的结果，⽐如对测试样本在训练好的car模型上分类，我们想得到top-5的结果，即：

在这个例⼦中，true positives就是指第4和第2张图⽚，fal positives就是指第13，19，6张图⽚。⽅框内圆圈外的元素（fal negatives和true negatives）是相对于⽅框内的元素⽽⾔，在这个例⼦中，是指confidence score排在top-5之外的元素，即：

其中，fal negatives是指第9，16，7，20张图⽚，true negatives是指第1,18,5,15,10,17,12,14,8,11,3张图⽚。

那么，这个例⼦中Precision=2/5=40%，意思是对于car这⼀类别，我们选定了5个样本，其中正确的有2个，即准确率为40%；Recall=2/6=30%，意思是在所有测试样本中，共有6个car，但是因为我们只召回了2个，所以召回率为30%。算平方怎么算

实际多类别分类任务中，我们通常不满⾜只通过top-5来衡量⼀个模型的好坏，⽽是需要知道从top-1到top-N（N是所有测试样本个数，本⽂中为20）对应的precision和recall。显然随着我们选定的样本越来也多，recall⼀定会越来越⾼，⽽precision整体上会呈下降趋势。把recall当成横坐标，precision当成纵坐标，即可得到常⽤的precision-recall曲线。这个例⼦的precision-recall曲线如下：

接下来说说AP的计算，此处参考的是PASCAL VOC CHALLENGE的计算⽅法。⾸先设定⼀组阈值，[0, 0.1, 0.2, …, 1]。然后对于recall⼤于每⼀个阈值（⽐如recall>0.3），我们都会得到⼀个对应的最⼤precision。这样，我们就计算出了11个precision。AP即为这11个precision的平均值。这种⽅法英⽂叫做11-point interpolated average precision。信息化服务

当然PASCAL VOC CHALLENGE⾃2010年后就换了另⼀种计算⽅法。新的计算⽅法假设这N个样本中有M个正例，那么我们会得到M个recall值（1/M, 2/M, ..., M/M），对于每个recall值r，我们可以计算出对应（r' > r）的最⼤precision，然后对这M个precision值取平均即得到最后的AP值。计算⽅法如下：

相应的Precision-Recall曲线（这条曲线是单调递减的）如下：煮茶

AP衡量的是学出来的模型在每个类别上的好坏，mAP衡量的是学出的模型在所有类别上的好坏，得到AP后mAP的计算就变得很简单了，就是取所有AP的平均值。

总结：

我和小姐姐克拉拉１．对多标签图像分类，基本策略可以是“one vs rest”——获取每个标签所属类的AP值，接着获取所有AP值的平均值。

２．对每⼀类，获取Ｐrecision值和Recall值，绘制P-R曲线，获得AP值。具体的计算AP⽅法：

（１）训练结束，获取打分排名（⼤—>⼩），取前Ｎ个;

（２）计算　１／Ｒ（Ｍ），......　，ｍ／Ｒ（Ｍ）对应的最⼤Precision值　P1, ......., Pm；

（３）AP= sum(P1+，......，Pm)／ｍ

本文发布于:2023-07-27 03:41:11，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/1098155.html

上一篇：2023届安徽省名校联盟高三下学期4月联考英语试题

下一篇：NLP-准确率、精确率、召回率和F1值