珍宝岛战役
CV感悟:YOLO与R-CNN的⽐较
手机进水了屏幕失灵怎么办
⼀、⾸先理解下“⼀步法”和“两步法”
two-stage⽅法,如R-CNN系算法
ie兼容模式即是两步法:
-- 第⼀步选取候选框
-- 第⼆步对这些候选框分类或者回归
one-stage⽅法,如Yolo和SSD
95年的今年多大即是⼀步法:
-- 其主要思路是均匀地在图⽚的不同位置进⾏密集抽样搞笑对话段子一问一答
-- 抽样时可以采⽤不同尺度和长宽⽐,然后利⽤CNN提取特征后直接进⾏分类与回归
-- 整个过程只需要⼀步,所以其优势是速度快
⼆、YOLO
即是YOU ONLY LOOK ONCE,俗称“⼀次就好”,我陪你去看天荒地⽼。。。跑题了。
先回忆下 R-CNN 是怎么选取候选框进⾏⽬标识别的
-- 可以近似总结为暴⼒法(实际上是⽤lective-arch选了2000个左右的候选框),本质上是每⼀个尺⼨每⼀个像素循环⼀遍 fast R-cnn
-- 本质上就是提取候选框的速度⽐R-CNN快;
所有R-CNN的⽅法都是将⽬标检测分为两部分实现的:
-- 1)物体的类别;分类问题。
-- 2)物体的区域,即bounding box,回归问题。
最有意义的一件事
回到YOLO:
-- 是直接当做回归问题求解,输⼊图像经过处理,可以直接获取到图像中物体的类别及其confidence以及物体的位置。
-- 具体⽅法是:
-- YOLO将输⼊图像分为S×S个grid,每个grid负责检测落⼊其中的物体。
-- 如果物体的中⼼位置落⼊该grid,则该grid就负责检测出这个问题。
-- 每个grid输出B个bounding box的同时还要输出C个物体属于某类的confidence
-- 从B个⾥⾯挑选IOU最⼤的那个bounding box,同时C是总共包含的类的类别。
关于水的图片三、补充说明:什么是grid,什么是IOU
grid是⽹格的意思,⼀般YOLO⽅法会把图⽚划分为 S*S 的⽹格,每个⽹格都负责检测物体并输出物体类别和位置,计算IOU
做什么生意赚钱IOU,简单来讲就是模型产⽣的⽬标窗⼝和原来标记窗⼝的交叠率
-- 具体计算:检测结果(DetectionResult)与 Ground Truth 的交集⽐上它们的并集,即为检测的准确率 IoU