首页 > 作文

lomo

更新时间:2023-03-07 06:16:27 阅读: 评论:0

感谢祝福语-朝阳景点

lomo
2023年3月7日发(作者:埃及红海)

《LookMoreThanOnce(LOMO):AnAccurateDetectorfor。。。

代码地址:

1.概述

导读:这篇⽂章提出的⽂本检测算法(LOMO)主要致⼒于去解决极端长⽂本与任意形状的⽂本检测问题,这篇⽂章处理⽂本区域表

达的时候会处理多次(体现于IRM模块),也对应⽂章标题的LookMoreThanOnce。这篇⽂章的检测算法主要由直接回归单元

(directregressor,DR)(源于EAST)、迭代优化模块(iterativerefinementmodule,IRM)与任意形状表达模块(shape

expressionmodule,SEM)三部分组成。DR⽣成⼀个⽂本区域的四边形检测框;IRM模块通过先前会对四边形检测框提取的特征

块进⾏迭代优化,从⽽逐渐感知到整个长⽂本;SEM模块结合⽂本区域的⼏何特征在IRM模块的基础上重建更加精准的⽂本区域表

达,包括⽂本的区域、⽂本中⼼线以及边界的偏移量;

现有的⽂本检测⽅法存在CNN感受野不⾜(实际感受野⼩于理论值)与⽂本区域表达存在限制的问题,具体见图1所⽰

在图1(a)中每个虚线⽹络代表的是对应点出的感受野,可以看出对于那种横贯整个图像的⽂本CNN是很难⼀次性全部捕获的,对此⽂章

是从局部到整体逐步优化实现的。在图1(b)中展⽰的是⽂本表达能⼒的限制,扭曲形状更适合扭曲⽂本表达的形式。

对于上⾯提到的两个问题,⽂章中的算法通过IRM与SEM模块进⾏解决。对于长⽂本的检测,IRM会在DR四边形检测结果的基础上多次回

归与GT对应的坐标,依赖于位置的attention机制,IRM可以感受这些位置信息,从⽽优化整个输⼊区域。

对于任意形状的⽂本,这⾥借鉴了MaskRCNN与TextSnake的机制使⽤⽂本中⼼线与对应偏移量的形式来表⽰⼀个⽂本。

⽂章的主要贡献:

1)提出了⼀个迭代优化模块IRM去优化长⽂本的检测;

2)提出了SEM模块适应任意形状的⽂本检测;

3)⽂章提出的检测算法是端到端的并且在现有的多个数据集上表现为state-of-the-art;

2.⽅法设计

2.2⽹络结构

⽂章的⽹络结构backbone选⽤的是ResNet-50,使⽤FPN将stage2~5的特征融合起来,得到分辨率为原始输⼊图尺⼨的特征图,通道

为128。

对于DR部分直接是参考EAST中的回归⽅法,由于感受野的关系得到的检测结果并不能很好包含⽂本区域,见图2(2)所⽰。之后IRM模

块在DR输出的基础上进⾏迭代优化使得检测框与GT接近。之后SEM模块中去学习⽂本的中⼼线与边界的偏移,从⽽得到任意形状⽂本的检

测结果。

⽂章的⽹络结构backbone选⽤的是ResNet-50,使⽤FPN将stage2~5的特征融合起来,得到分辨率为原始输⼊图尺⼨的特征图,通道

为128。

对于DR部分直接是参考EAST中的回归⽅法,由于感受野的关系得到的检测结果并不能很好包含⽂本区域,见图2(2)所⽰。之后IRM模

块在DR输出的基础上进⾏迭代优化使得检测框与GT接近。之后SEM模块中去学习⽂本的中⼼线与边界的偏移,从⽽得到任意形状⽂本的检

测结果。其⽹络结构见下图所⽰:

2.2DR模块

在DR模块中将⽂本与⾮⽂本的⼆分类问题转换为了⼆值分割问题,并使⽤了尺度不变的dice-coefficient作为损失函数,其定义为:

其中,是⼆值标注,是预测结果,是⼆维权值空间,其中对于正样本位置设置为值,负样本位置为1.0。

对于检测框的坐标值回归使⽤的是smoothL1损失函数,对于4个⾓点采⽤的是8个特征图进⾏预测。则对于这部分的损失函数为:

这⾥。

2.3IRM模块

4

1

4

1

y

y^

wl=64

L=drλL+clsLloc

λ=0.01

IRM模块的设计参考了基于区域的检测算法思路(其中的边界框回归任务),这⾥采⽤RoItransformlayer去提取四边形proposal区域,

这样的好处是保持长宽⽐例不变(所以并未采⽤RoIPooling或RoIalignPooling),其输出的维度是。由于与⽂本区域

⾓点接近的位置能够在相同感受野下获得更加精准的边界信息,这⾥使⽤Cornerattention机制去回归相对每个⾓点的坐标偏移。

IRM模块的结构见下图所⽰:

RoItransformlayer的输出经过3个的卷积得到,之后使⽤⼀个的卷积与sigmoid操作去学习4个⾓点的特征图,之后将两

个输出做分组点乘与sumreduce操作:

其输出结果为代表的是第个⾓点回归特征,维度为。这样就可以得到4个⾓点的回归特征图。在训练的时候选择DR模块

中的前个结果⽤于训练,则⾓点部分的损失函数被定义为:

2.4SEM模块

SEM模块中三个⽐较关键的部分是⽂本区域分割图、⽂本中⼼线以及⽂本区域的边界偏移。对于⽂本中⼼线是在原⽂本区域的基础上进⾏收

缩得到的,⽽边界偏移是⽂本中⼼线在⼀个点上的法线与上下边界的⾓点,这⾥⽤4个特征图去回归。则整个SEM模块的结构见下图所⽰:

这⾥涉及到三个部分的回归损失,对于这三个部分的损失采⽤的是如下⽅式进⾏组合,其中

对于⽂中涉及到的3个部分的损失,这⾥是使⽤如下的⽅式进⾏组合(加权值都为1.0):

1∗8∗64∗128

3∗3fr1∗1ma

fc

i

i1∗1∗1∗128

K

λ=1λ=20.01,λ=31

3.实验结果

3.1性能⽐较

ICDAR2015:

ICDAR2017-MLT

3.3消融实验

IRM中迭代优化次数与⾓点注意⼒机制对性能的影响:

中⼼线上点的采样个数对性能的影响:

IRM与SEM对性能的影响:

本文发布于:2023-03-07 06:16:26,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/zuowen/1678140987168415.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:lomo.doc

本文 PDF 下载地址:lomo.pdf

上一篇:lomo
下一篇:返回列表
标签:lomo
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26 专利检索|