多⽬标跟踪MOT16数据集和评价指标
最近要做⼀个有关多⽬标跟踪的项⽬,刚刚接触MOT,所以先来了解⼀下MOT16这个⽐较经典的数据集以及⽐较经典的评价标准。1. 多⽬标跟踪
多⽬标跟踪处理的对象是视频,从视频的第⼀帧到最后⼀帧,⾥边有多个⽬标在不断运动。多⽬标跟踪的⽬的就是将每个⽬标和其他⽬标进⾏区分开来,具体⽅法是给每个⽬标分配⼀个ID,并记录他们的轨迹。
已开始接触,可能觉得直接将⽬标检测的算法应⽤在视频的每⼀帧就可以完成这个任务了。实际上,⽬标检测的效果是很不稳定的,其实最⼤的区别在于,仅仅使⽤⽬标检测⽆法给对象分配ID,并且跟踪能够优化整个跟踪过程,能让⽬标框更加稳定。
多⽬标跟踪中⼀个⽐较经典的和深度学习结合⽐较好的⽅法就是Detection Bad Tracking,对前后两帧进⾏⽬标检测检测,然后根据得到的前后两帧的所有⽬标进⾏匹配,从⽽维持ID。初学者接触⽐较多的就是SORT和Deep SORT算法了。
2. MOT16数据集
MOT16数据集是在2016年提出来的⽤于衡量多⽬标跟踪检测和跟踪⽅法标准的数据集,专门⽤于⾏⼈跟
踪。官⽹地址是:
motchallenge/
从官⽹下载的数据是按照以下的⽂件结构进⾏组织的:
- MOT16
- train
- MOT16-02
- det
-
- gt
- gt.txt
- img1
-
qinfo.init
- MOT16-04
- MOT16-05
- MOT16-09
- MOT16-10
- MOT16-11
- MOT16-13
- test
- MOT16-01
aqjypt- det
-
-
img1
- qinfo.ini
- MOT16-03
- MOT16-06
- MOT16-07
- MOT16-08
- MOT16-12
科比简介- MOT16-14
在MOT16数据集中,是包含了检测得到的框的,这样是可以免去⽬标检测这个部分,提供统⼀的⽬标检测框以后,然后可以⽐较⽬标跟踪更关注的部分,⽽不⽤在花费精⼒在⽬标检测上。
1. qinfo.ini
在每个⼦⽂件夹中都有这个,主要⽤于说明这个⽂件的⼀些信息,⽐如长度,帧率,图⽚的长和宽,图⽚的后缀名。
[Sequence]
name=MOT16-09
imDir=img1
frameRate=30
qLength=525
imWidth=1920
imHeight=1080
imExt=.jpg
2.
这个⽂件中存储了图⽚的检测框的信息(检测得到的信息⽂件),部分内容展⽰如下:
1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
2,-1,460.48,442.1,90.896,274.69,0.26749,-1,-1,-1
2,-1,643.66,461.78,59.629,180.89,0.18023,-1,-1,-1
2,-1,1494.4,408.29,112.14,338.41,0.16075,-1,-1,-1
2,-1,572.83,364.89,128.96,388.88,-0.011851,-1,-1,-1
不文明现象3,-1,1359.1,413.27,120.26,362.77,2.3387,-1,-1,-1
3,-1,571.03,402.13,104.56,315.68,0.79923,-1,-1,-1
3,-1,1482.5,390.88,128.96,388.88,0.35271,-1,-1,-1
.
..
600,-1,708.37,476.87,20.435,63.306,-0.1483,-1,-1,-1
600,-1,421.14,446.86,41.871,127.61,-0.19971,-1,-1,-1
600,-1,613.25,412.69,51.78,157.34,-0.38627,-1,-1,-1
600,-1,375.27,454.06,48.246,146.74,-0.42444,-1,-1,-1
从左到右分别代表:
frame: 第⼏帧图⽚
id: 这个检测框分配的id,在这⾥都是-1代表没有id信息
bbox(四位): 分别是左上⾓坐标和长宽
conf:这个bbox包含物体的置信度,可以看到并不是传统意义的0-1,分数越⾼代表置信度越⾼
MOT3D(x,y,z): 是在MOT3D中使⽤到的内容,这⾥关⼼的是MOT2D,所以都设置为-1
可以看出以上内容主要提供的和⽬标检测的信息没有区别,所以也在⼀定程度上可以⽤于检测器的训练。
3. gt.txt
这个⽂件只有train的⼦⽂件夹中有,test中没有,其中内容的格式和有⼀些类似,部分内容如下:1,1,912,484,97,109,0,7,1
巨蟹座和天蝎座2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
...
鳗鱼的功效与作用136,1,912,484,97,109,0,7,0.93878
137,1,912,484,97,109,0,7,0.86735
138,1,912,484,97,109,0,7,0.79592
139,1,912,484,97,109,0,7,0.72449
140,1,912,484,97,109,0,7,0.65306
...
338,1,912,484,97,109,0,7,0
339,1,912,484,97,109,0,7,0
340,1,912,484,97,109,0,7,0
341,1,912,484,97,109,0,7,0
...
599,1,912,484,97,109,0,7,1
600,1,912,484,97,109,0,7,1
1,2,1338,418,167,379,1,1,1
2,2,1342,417,168,380,1,1,1
3,2,1346,417,170,380,1,1,1
...
从左到右分别是:
frame: 第⼏帧图⽚
ID:也就是轨迹的ID ,可以看出gt ⾥边是按照轨迹的ID 号进⾏排序的
bbox: 分别是左上⾓坐标和长宽
是否忽略:0代表忽略
class:⽬标的类别个数(这⾥是驾驶场景包括12个类别),7代表的是静⽌的⼈。
第8个类代表错检,9-11
代表被遮挡的类别
最后⼀个代表⽬标运动时被其他⽬标包含、覆盖、边缘裁剪的情况。总结:
train 中含有的标注信息主要来⾃ 和gt.txt 。test 中只含有 。
< 含有的有⽤信息有:frame, bbox, conf
< 含有的有⽤信息有:frame,bbox, conf, id, class
<(使⽤deepsort 得到的⽂件)中含有的有⽤信息有:
烤秋葵frame,bbox, id 评价出发点:所有出现的⽬标都要及时能够找到;⽬标位置要尽可能与真实⽬标位置⼀致;
每个⽬标都应该被分配⼀个独⼀⽆⼆的ID ,并且该⽬标分配的这个ID 在整个序列中保持不变。
评价指标数学模型:
评价过程的步骤:
1. 建⽴ ⽬标与假设最优间的最优⼀⼀对应关系,称为correspondence
2. 对所有的correspondence ,计算位置偏移误差
cpu全称3. 累积结构误差 a. 计算漏检数 b. 计算虚警数(不存在⽬标却判断为⽬标) c. 跟踪⽬标发⽣跳变的次数
3. MOT 中的评价指标
1. MOTA(Multiple Object Tracking Accuracy)
MOTA=1−∑(FN+FP+IDSW)
∑GT∈(−∞,1]
FN为Fal Negative, FP为Fal Positve, IDSW为ID Switch, GT是Ground Truth物体的数量。
MOTA主要考虑的是tracking中所有对象匹配错误,主要是FP,FN,IDs. MOTA给出的是⾮常直观的衡量跟踪其在检测物体和保持轨迹时的性能,与⽬标检测精度⽆关。
MOTA取值⼩于100,但是当跟踪器产⽣的错误超过了场景中的物体,MOTA可以变为负数。
ps: MOTA&MOTP是计算所有帧相关指标后再进⾏平均的,不是计算每帧的rate然后进⾏rate平均。
2. MOTP(Multiple Object Tracking Precision)
MOTP=∑t,i d t,i ∑t c t
d为检测⽬标i和给它分配的ground truth之间在所有帧中的平均度量距离,在这⾥是使⽤bonding box的overlap rate来进⾏度量(在这⾥MOTP是越⼤越好,但对于使⽤欧⽒距离进⾏度量的就是MOTP越⼩越好,这主要取决于度量距离d的定义⽅式);⽽c为在当前帧匹配成功的数⽬。MOTP主要量化检测器的定位精度,⼏乎不包含与跟踪器实际性能相关的信息。
3. MT(Mostly Tracked)职务有哪些
满⾜Ground Truth⾄少在80%的时间内都匹配成功的track,在所有追踪⽬标中所占的⽐例。注意这⾥的MT和ML与当前track的ID是否发⽣变化⽆关,只要Ground Truth与⽬标匹配上即可。
4. ML (Mostly Lost)
满⾜Ground Truth在⼩于20%的时间内匹配成功的track,在所有追踪⽬标中所占的⽐例。
5. ID Switch
Ground Truth 所分配的ID 发⽣变化的次数,如图1中(a)
所⽰。
6. FM (Fragmentation)
FM 计算的是跟踪有多少次被打断(既Ground Truth 的track 没有被匹配上),换句话说每当轨迹将其状态从跟踪状态改变为未跟踪状态,并且在稍后的时间点跟踪相同的轨迹时,就会对FM 进⾏计数。此处需要注意的是,FM 计数时要求ground truth 的状态需要满⾜:tracked->untracked->tracked ,如图1中(b)所⽰,⽽(c)中的不算FM 。需要注意的是,FM 与ID 是否发⽣变化⽆关。
7. FP (Fal Positive)
当前帧预测的track 和detection 没有匹配上,将错误预测的track 点称为FP ,如图1所⽰。是否匹配成功与匹配时所设置的阈值有关。
8. FN (Fal Negative)
当前帧预测的track 和detection 没有匹配上,将未被匹配的ground truth 点称为FN (也可以称为Miss )
9. ID scores
MOTA 的主要问题是仅仅考虑跟踪器出错的次数,但是有⼀些场景(⽐如航空场景)更加关注⼀个跟踪器是否尽可能长的跟踪⼀个⽬标。这个问题功过构建⼆分图来解决,主要计算对象是IDTP 、IDFP 、IDFN 。
IDP:
IDP =IDTP
IDTP +IDFP
IDR:
IDR =IDTP IDTP +IDFN
IDF1: 正确识别的检测与真实数和计算检测的平均数之⽐IDF 1=2IDTP 2IDTP +IDFP +IDFN .
4. 参考资料
Loading [MathJax]/jax/output/HTML-CSS/fonts/TeX/fontdata.js