CV感悟:YOLO与R-CNN的⽐较
⼀、⾸先理解下“⼀步法”和“两步法”
two-stage⽅法,如R-CNN系算法
西雅图华盛顿大学即是两步法:
四级查分网站
that-- 第⼀步选取候选框
-- 第⼆步对这些候选框分类或者回归
one-stage⽅法,如Yolo和SSD
即是⼀步法:
-- 其主要思路是均匀地在图⽚的不同位置进⾏密集抽样
-- 抽样时可以采⽤不同尺度和长宽⽐,然后利⽤CNN提取特征后直接进⾏分类与回归
msv-- 整个过程只需要⼀步,所以其优势是速度快
布朗特三姐妹>personal statement 范文
⼆、YOLO
即是YOU ONLY LOOK ONCE,俗称“⼀次就好”,我陪你去看天荒地⽼。。。跑题了。
anda先回忆下 R-CNN 是怎么选取候选框进⾏⽬标识别的
-- 可以近似总结为暴⼒法(实际上是⽤lective-arch选了2000个左右的候选框),本质上是每⼀个尺⼨每⼀个像素循环⼀遍 fast R-cnn
-- 本质上就是提取候选框的速度⽐R-CNN快;
所有R-CNN的⽅法都是将⽬标检测分为两部分实现的:
-- 1)物体的类别;分类问题。
-- 2)物体的区域,即bounding box,回归问题。
回到YOLO:
-- 是直接当做回归问题求解,输⼊图像经过处理,可以直接获取到图像中物体的类别及其confidence以及物体的位置。
graduates
-- 具体⽅法是:
beltal-- YOLO将输⼊图像分为S×S个grid,每个grid负责检测落⼊其中的物体。
-- 如果物体的中⼼位置落⼊该grid,则该grid就负责检测出这个问题。
-- 每个grid输出B个bounding box的同时还要输出C个物体属于某类的confidence
ckj-- 从B个⾥⾯挑选IOU最⼤的那个bounding box,同时C是总共包含的类的类别。
三、补充说明:什么是grid,什么是IOU
grid是⽹格的意思,⼀般YOLO⽅法会把图⽚划分为 S*S 的⽹格,每个⽹格都负责检测物体并输出物体类别和位置,计算IOU
IOU,简单来讲就是模型产⽣的⽬标窗⼝和原来标记窗⼝的交叠率
-- 具体计算:检测结果(DetectionResult)与 Ground Truth 的交集⽐上它们的并集,即为检测的准确率 IoU