1.什么是OCR?
OCR(OpticalCharacterRecognition,光学字符识别)是指电子设备(例如扫描
仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后
用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然
后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助
信息提高识别正确率,是OCR最重要的课题,ICR(IntelligentCharacter
Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:
拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行
性等。
的发展历史:
早在60、70年代,世界各国就开始有OCR的研究,而研究的初期,多以
文字的识别方法研究为主,且识别的文字仅为0至9的数字。以同样拥有
方块文字的日本为例,1960年左右开始研究OCR的基本识别理论,初期以
数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文
字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的
作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。
中国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、
英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究,到
1986年汉字识别的研究进入一个实质性的阶段,不少研究单位相继推出了
中文OCR产品.
3.工作流程:
一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内
的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机
文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,
当然也可节省因键盘输入的人力与时间。
从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、
比对识别、最后经人工校正将认错的文字更正,将结果输出
4.影像输入:
欲经过OCR处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何
摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作
的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的
分辨率使影像更清晰、扫除速度更增进OCR处理的效率。
影像前处理:影像前处理是OCR系统中,须解决问题最多的一个模块,
从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出
一个个的文字影像的过程,都属于影像前处理。包含了影像正规化、去除
噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处
理。在影像处理方面,在学理及技术方面都已达成熟阶段,因此在市面上
或网站上有不少可用的链接库;在文件前处理方面,则凭各家本领了;影
像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文
章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件
一样的判断出来。
文字特征抽取:单以识别率而言,特征抽取可说是OCR的核心,用什
么特征、怎么抽取,直接影响识别的好坏,也所以在OCR研究初期,特征
抽取的研究报告特别的多。而特征可说是识别的筹码,简易的区分可分为
两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几
个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,
在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,
如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔
划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软
件的识别方法多以此种结构的方法为主。
对比数据库:当输入文字算完特征后,不管是用统计或结构的特征,
都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有
欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
5.对比识别:
这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不
同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比
对法(Relaxation)、动态程序比对法(DynamicProgramming,DP),以
及类神经网络的数据库建立及比对、HMM(HiddenMarkovModel)…等著
名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts
System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,
其信心度特别的高。
字词后处理:由于OCR的识别率并无法达到百分之百,或想加强比对
的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为OCR系统中
必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能
的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的
功能。
字词数据库:为字词后处理所建立的词库。
6.人工校正:
OCR最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作
或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是
OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以
降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文
字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功
能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设
计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像
完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的
错,就完全看使用单位的需求了。
7.结果输出:
有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂
亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以
要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。如果需要
还原成原文一样格式,则在识别后,需要人工排版,耗时耗力。
与中文识别:
1)资料录入
文献资料的数字化录入,一般分为:
1.纯图像方式。
2.目录文本、正文图像方式。
3.全文本方式。
4.全文索引方式。文本方式和图像方式的混合体。
2)识别过程
书本级:中文,英文;简体,繁体;
版式级:竖排,横排;有无分栏;
行切分字切分
识别:真正的OCR识别过程,图像信息还原成文本信息
后处理:人工干预,主要集中在前四个阶段。
3)识别结果决定因素
1.图片的质量,一般建议150dpi以上
2.颜色,一般对彩色识别很差,黑白的图片较高,因此建议ocr的为
黑白tif格式
3.最重要的就是字体,如果是手写识别率很低。
国内OCR识别简体差错率为万分之三,如果要求更高的精度需要投入
更大的人工干预。繁体识别由于繁体字库的不统一性(民国时期的字库和
现在繁体字库不统一),导致识别困难,在人工干预下,精度能达到90%
以上(图文清晰情况下)。
识别技术解决方案:
OCR概念早在1929年就已经产生,但因为我国在OCR技术方面的研究工作起步
较晚,所以在此之前,人们对OCR要么完全陌生,要么只能和市场上与扫描仪捆
绑的OCR软件普及版联系起来。先进技术从实验室走向市场都要经历一个长期的
过程,对于并非一项新技术的OCR而言,这个过程则更为漫长。这固然涉及到市
场普及的问题,但也和过去OCR产品实用程度低、功能单一有很大的关系。但在
近年来,这种现象正逐步改变。有一些信号表明,中国信息化建设日益高涨的呼
声已经为OCR领域带来了一些新的变化。这种变化不仅表现在技术的革新与进
步,更表现为用户对于信息化的内涵和技术发展趋势有了非常明显的了解愿望。
尤其在今年,一直以技术为主导的OCR产品,正悄然掀起一场以应用为导向的市
场变革。
变革露峥嵘
这场变革是如何产生的,变革的背后究竟蕴含着哪些因素呢?
首先,我国的信息化建设,是一项浩大而又艰巨的工程。在经历过从无到有的过
程后,终于朝着由弱至强的方向高速发展。而在高速发展的过程中,技术毫无疑
问是其中最核心的推动力。从80年代开始,OCR的研究开发就一直受到国家"863"
计划的资助,在清华的吴佑寿教授、丁晓青教授、中科院的刘昌平博士、李明敬
博士等人不懈努力下,已经取得了巨大发展。我国在信息技术领域付出的努力,
已经有了初步的回报。目前,印刷体OCR的识别技术已经达到完全实用的程度,
即使对印刷质量较差的文字的识别率也达到95%以上。而结合尖端技术的专业版
OCR更是具备了批处理功能,性能更加优化。经过科学家们和企业的共同努力,
现在的OCR技术终于迎来了一个技术的成熟期,这就为OCR应用市场的瓜熟蒂落
提供了雄厚的技术支持和保障。
其次,OCR技术本身的实用性使得其应用领域十分广泛,同时行业信息化的发展
也带动着行业更深层次的信息化需求。以前,我国OCR技术主要应用在通用市场,
而在今日,网络时代的特征正在影响着OCR应用市场的前进步伐,政府、公司、
家庭、个人均是网络时代的组成部分,个人资料电子化、商务办公自动化等需求
的呼声也越来越高。目前从行业需求来看,金融、电子政务、保险、税务、工商
等行业对信息识别的需求已越来越广泛,促进了识别技术的大规模应用。而个人
消费者对资料电子化、手写识别技术等需求拓展了OCR识别技术在这一领域的应
用之路。
再者,与目前OCR应用市场的发展空间相比,广大用户的需求并没有得到充分的
满足。面对这样崭新的市场变化和消费者的需求,市场还有许多潜力等待厂商去
挖掘。这对于OCR产品厂商来说,既是机遇也是挑战。各大厂商自然闻风而动,
各类OCR产品不断推出,产品形态日益丰富,十分有利于OCR产品市场的快速扩
张,为这一市场的启动起到相当的促进作用。
因此我们可以看出,随着OCR技术的进一步成熟,依靠OCR识别正确率的提高和
应用扩展的推动力,应用领域的不断扩展,OCR市场容量正逐步做大。
搭台唱戏,"应用"为先
巨大的社会信息化需求使OCR应用市场在今年已经拥有了一个良好的开局,继上
半年OCR技术在应用方面取得较大突破之后,这种持续上升的态势在下半年得到
了更深层次的延续,尤其是人们通过非典意识到的资料电子化的重要作用为OCR
市场的跃进式发展提供一个良好的契机。同时国内厂商在下半年也纷纷继续挖掘
OCR市场潜力,加快了中国信息化建设步伐。目前OCR技术在个人信息管理、办
公自动化、电子出版物、网络资源、各种大型文献资料管理数据库、数字化图书
馆等领域的应用中均表现活跃,而以三大板块为主的OCR应用市场也显示出迅速
攀升的良好势头。
首先是最早开发的OEM市场进一步成熟,市场需求稳步提升。这一市场主要面向
与硬件相捆绑的设备,如扫描仪等,其次是个人零售市场继续升温。如文字识别
领域的领军企业清华紫光文通推出的名片识别系统e-card引起了用户广泛关
注;另外,行业应用市场的持续扩张,以OCR识别为核心技术研发的产品正在成
为行业用户的采购热点。
从今年OCR产品应用的发展来看,我们可以看到主要分为两条主线:
其一,OCR在行业上的应用,一直以来这是最主要的应用。以清华紫光文通为例,
它的TH-OCR已经在金融、税务、图书馆等行业进行了应用,而且涉及的行业越
来越广泛。尤其在今年,紫光文通的TH-OCRAsia版高性能中日韩文档识别理解
重构系统凭借其在技术上的领先性及在识别上的准确性,获得了由国家科学技术
部、国家税务总局、国家商务部、国家质检总局和国家环保总局五部联合认证的
"国家重点新产品"奖项。据悉,文通TH-OCRAsia版是首次获得此项殊荣的OCR
产品。另外,在微软最新发布的office2003中的东方文字识别(中文简、繁体,
日文、韩文)配装的也是文通的OCR技术。与此同时,紫光文通紧随行业发展步
伐,针对新形势打出"应用牌",不断推出针对性的产品与解决方案。例如针对
重点又是难点的老旧报纸数字化工作,文通推出报纸数字化制作系统,专门对老
旧报纸进行数字化的制作,提供了从报纸扫描、文字识别,到光盘检索出版、发
布的一整套完整的报纸数字化解决方案,有效的解决了这一长期困扰人们的难
题,使得报业信息化进程更为顺畅。
其二,OCR正逐渐褪去神秘的面纱,由一种高高在上的技术转化为在与人们生活
密切相关的领域上的应用。从今年紫光文通的名片识别系统e-card和身份证识
别系统"e验通"的推出,嵌入式手写识别技术在手机、PDA上的应用,"小灵鼠"
手写识别技术在PC、笔记本电脑上的应用,都可以看到这类与个人消费者密切
相关的应用产品,在专业的OCR领域引起的强大震撼。其中,尤其值得一提的是,
紫光文通今年成功地把OCR技术移植到数字移动产品上,推出了与数码相机相结
合的"慧视"屏幕文字图像识别系统,为数字移动产品的应用开阔了一片全新的领
域。用户可利用数码相机、数码摄相机等设备把感兴趣的文章,看不懂的外文资
料拍下,传入电脑,再通过OCR以十分成熟的版面分析及超强的识别核心对各种
图像信息加以识别,变成可编辑的材料,还可配合翻译软件对材料进行翻译阅读。
不仅如此,紫光文通在下一步还准备将OCR技术应用到嵌入设备中,如手机等。
这一切都说明OCR的应用领域越来越广泛,与人们的日常生活越来越贴近,为广
大消费者带来的无疑将是更大的惊喜和便利。
随着近年来信息化浪潮的不断高涨,已开创了一个全新的行业应用时代。如今,
随着应用软件的开发日益成熟,只要拥有了核心技术,就可以去调整在各行业的
应用。以市场实际需求为出发点,从而带动全新的实际应用为导向的发展潮流。
因此如何把技术优势转化成市场优势,使市场优势紧贴市场上的实际需求,成为
企业制胜的最关键因素。作为厂商,必须充分发挥自身的优势打造自身独有的竞
争优势。在这个用户需求决定市场发展的时代,只有拥有强大的产品开发能力和
市场拓展能力,只有牢牢把握用户的需求心理,主动创造用户的需求应用,才能
在竞争日趋激烈的市场中为自己赢得更大的生存与发展的空间,才能走在时代的
前端,领航OCR未来。
可以肯定的是,经过众多专家或专业人士的努力,及国家在信息产业领域的大力
资助,将使OCR更加深入到网络的各个领域,会有更多的新品种奉献给广大用
户,OCR技术将会有一个质的飞跃,未来OCR产业将走进自己的黄金时代。
-------------------------------------------------------------------------------------------------------
本文发布于:2023-03-07 09:31:31,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/1678152692170498.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:ocr扫描.doc
本文 PDF 下载地址:ocr扫描.pdf
留言与评论(共有 0 条评论) |