清华紫光ocr汉王ocr50增强版
ocr扫描仪文字
2011-06-11
清华紫光ocr汉王ocr5.0增强版ocr扫描仪文字识别软件清华紫光ocr汉
王ocr5.0增强版ocr扫描仪文字识别软件
2009年08月24日
ocr是英文opticalcharacterrecognition的缩写,翻译成中文就是通过
光学技术对文字进行识别的意思,是自动识别技术研究和应用领域中的一个重要
方面。它是一种能够将文字自动识别录入到电脑中的软件技术,是与扫描仪配套
的主要软件,属于非键盘输入范畴,需要图像输入设备主要是扫描仪相配合。现
在ocr主要是指文字识别软件。
OCR的基本原理
简单地说,OCR的基本原理就是通过扫描仪将一份文稿的图像输入给计算机,
然后由计算机取出每个文字的图像,并将其转换成汉字的编码。其具体工作过程
是,扫描仪将汉字文稿通过电荷耦合器件CCD将文稿的光信号转换为电信号,经
过模拟/数字转换器转化为数字信号传输给计算机。计算机接受的是文稿的数字
图像,其图像上的汉字可能是印刷汉字,也可能是手写汉字,然后对这些图像中的
汉字进行识别。对于印刷体字符,首先采用光学的方式将文档资料转换成原始黑
白点阵的图像文件,再通过识别软件将图像中的文字转换成文本格式,以便文字
处理软件的进一步加工。其中文字识别是OCR的重要技术。
识别的两种方式
与其它信息数据一样,在计算机中所有扫描仪捕捉到的图文信息都是用0、
1这两个数字来记录和进行识别的,所有信息都只是以0、1保存的一串串点或
样本点。OCR识别程序识别页面上的字符信息,主要通过单元模式匹配法和特征
提取法两种方式进行字符识别。
单元模式匹配识别法(PatternMatching)是将每一个字符与保存有标准字
体和字号位图的文件进行不严格的比较。如果应用程序中有一个已保存字符的
大数据库,则应用程序会选取合适的字符进行正确的匹配。软件必须使用一些处
理技术,找出最相似的匹配,通常是不断试验同一个字符的不同版本来比较。有
些软件可以扫描一页文本,并鉴别出定义新字体的每一个字符。有些软件则使用
自己的识别技术,尽其所能鉴别页面上的字符,然后将不可识别的字符进行人工
选择或直接录入。
特征提取识别法(FeatureExtraction)是将每个字符分解为很多个不同的
字符特征,包括斜线、水平线和曲线等。然后,又将这些特征与理解(识别)的字
符进行匹配。举个简单的例子,应用程序识别到两条水平横线,它就会"认为"该
字符可能是"二"。特征提取法的优点是可以识别多种字体,例如中文书法体就是
采用特征提取法实现字符识别的。
多数OCR应用软件都加入了语法智能检查功能,这种功能进一步提高了识别
率。它主要通过上下文检查法实现拼写和语法的纠正,在文字识别时,OCR应用
程序会做多次的上下文衔接性检查,根据程序中已经存在的词组、固定的用词顺
序,对应的检查字符串的用词字。比较高级的应用软件会自动用它"认为"正确的
词语替换错误词语,纠正语句意思。
2.文字识别的几个步骤
文字识别包括以下几个步骤:图文输入、预处理、单字识别和后处理等。
(1)图文输入
是指通过输入设备将文档输入到计算机中,也就是实现原稿的数字化。现在
用得比较普遍的设备是扫描仪。文档图像的扫描质量是OCR软件正确识别的前
提条件。恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关
键。此外,文档尽可能地放置端正,以保证预处理检测的倾斜角小,在进行倾斜校
正后,文字图像的变形就小。这些简单的操作,会使系统的识别正确率有所提高。
反之,由于扫描设置不当,文字的断笔过多可能会分检出半个文字的图像。文字
断笔和笔画粘连会造成有些特征丢失,在将其特征与特征库比较时,会使其特征
距离加大,识别错误率上升。
(2)预处理
扫描一幅简单的印刷文档的图像,将每一个文字图像分检出来交给识别模块
识别,这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工
作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)。主要任务是测量文
档放置的倾斜角,对文档进行版面分析,对选出的文字域进行排版确认,对横、竖
排版的文字行进行切分,每一行的文字图像的分离,标点符号的判别等。这一阶
段的工作非常重要,处理的效果直接影响到文字识别的准确率。
版面分析是对文本图像的总体分析,是将文档中的所有文字块分检出来,区
分出文本段落及排版顺序,以及图像、表格的区域。将各文字块的域界(域在图
像中的始点、终点坐标),域内的属性(横、竖排版方式)以及各文字块的连接关
系作为一种数据结构,提供给识别模块自动识别。对于文本区域直接进行识别处
理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简
单存储。行字切分是将大幅的图像先切割为行,再从图像行中分离出单个字符的
过程。
(3)单字识别
单字识别是体现OCR文字识别的核心技术。从扫描文本中分检出的文字图
像,由计算机将其图形、图像转变成文字的标准代码,是让计算机"认字"的关键,
也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的
各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先
将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些
信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用
的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。
中国汉字常用的就有几千,识别技术就是特征比较技术,通过和识别特征库
的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。比较是人
们认识事物的一种基本方法,汉字识别也是通过比较找出汉字之间的相同、相似、
相异,把握其量和质的关系,以及时间与空间的关系等。对于大字符集的汉字一
般采用多级分类,多特征、全方位动态匹配求相似集,以保证分类率高、适应性
强、稳定性好;细分类重点在于对相似集求异匹配、加权处理、结构判别,定量、
定性分析,以及前后联接词的关系,最后进行判别。汉字识别实质上是比较科学
或认知科学在人工智能方面的应用,其关键技术是识别特征库。计算机有了这样
的一个特征库,才能完成认字的功能。
在图像文档的版面中,除了有文字、图片,有时还会有表格存在,为了使识别
后的表格数字化,需要在版面分析过程中,对表格域进行特殊的处理,它包括对表
格线的结构信息的提取,对表格内文字域的分检,完成对表格线和对文字域的识
别,并根据表格线的数字化生成不同的文件格式。由于文档中的表格随意性大,
格式多样,有封闭式的,也有开放式的,特别是表格中的斜线,给表格分析造成一
定的困难。
(4)后处理
后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即
将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减
少误识率。
汉字字符识别是文字识别领域最为困难的问题,它涉及模式识别、图像处理、
数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文
信息处理等学科,是一门综合性技术。近几年来,印刷汉字识别系统的单字识别
正确率已经超过95%,为了进一步提高系统的总体识别率,扫描图像、图像的预
处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,
有效地提高了印刷汉字识别系统的总体性能。清华大学在此方面的研究成果突
出,已经成为世界上的最具权威的机构之一。目前,清华紫光的全系列扫描仪中
都配装了清华OCR千禧版软件,它在识别率、表格识别甚至规范手写体的识别方
面,均达到了较高水平。
三、ocr文字识别技巧
在最近几年中,ocr识别技术随着扫描仪的普及得到了飞速的发展,扫描、
识别软件的性能不断强大并向智能化不断升级发展。但是要想快速地获取正确
的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸
索出自己的全套解决方案。有时我们在作文字识别工作时识别率非常低,根本达
不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描
及ocr识别技巧的原因。
下面是文字识别操作中经常用到了一些方法和技巧。
1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像
信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确
率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿
的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不
偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。
2.扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率
的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画
较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,
如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太
小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字
轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。
3.选好扫描软件。选一款好的适合自己的ocr软件是作好文字识别工作的
基础,一般不要使用扫描仪自带的oem软件,oem的ocr软件的功能少、效果差,
有的甚至没有中文识别,经过比较,我认为清华紫光ocr2003专业版和尚书
ocr6.0文本自动识别输入系统的识别能力与使用功能更突出一些。再选一个图
像软件,ocr软件不是有扫描接口吗?为什么还找图像软件?第一,ocr软件不能识
别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图
像便于处理;一般选用photoshop。
4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分ocr
软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先
要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使
软件集中注意力查找正确的字符,不再顾及字体和字体格式。
5.在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,
对识别会造成很大的障碍。遇到该类扫描,只要在扫描原稿的背面附。盖一张黑
纸,扫描时,增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率,
6.一般文本扫描原稿都为黑、白两色原稿,但是在扫描设置时却常将扫描模
式设为灰度模式。特别是在原稿质量较差时,使用灰度模式扫描,并在扫描软件
处理完后再继续识别,这样会得到较好的识别正确率。值得注意的是ocr识别软
件可以自己确定阀值,几个百分点的阀值差异,可能就会影响识别的正常进行。
当然,得到的图像文件的大小会比黑白文件大很多。在进行大批量文稿扫描时,
必须对原稿进行测试,找到最佳的阀值百分比。
7.遇到图文混排的扫描原稿,首先明确使用的识别软件是否支持自动分析图
文这一功能。如果支持的话,在进行这类扫描识别时,ocr软件会自动计算出文
本的内容、位置和先后顺序。文字部分可以按照标示顺序正常识别。
8.手动选取扫描区域会有更好识别效果。设置好参数后,先预览一下,然后
开始选取扫描区域。不要将要用的文章一股脑儿选在一个区域内,因为现在的文
章排版为了追求更好的视觉效果,使用图文混排的较多,扫成一幅图像会影响
ocr识别。因此,要根据实际情况将版面分成n个区域,怎么划分区域呢?每一区
域内的文字字体、字号最好一致,没有图形、图像,每一行的宽度一致,遇到长短
不一,再细分,一般一次最多可扫描10个选区。根据不同情况,合理地设置识别
区域的顺序。不要嫌这个过程太烦,那可是提高识别率的有效手段。注意各识别
区域不能有交叉,做到一切觉得完好以后再进行识别。这样一般的识别率会在
95%以上,对于识别不正确的文字进行校对后,就可以进入相应的文字处理软件进
行所需的处理了。
9.在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以
最大限度地减小由于光学透镜导致的失真。同时应保护扫描仪玻璃的干净和不
受损害。文字有一定角度的倾斜,或者是原稿文字部分为不正规排版,必须在扫
描后使用旋转工具,进行纠正;否则ocr识别软件会将水平笔划当做斜笔划处理,
识别正确率会下降很多。建议用户尽量将扫描原稿放正,用工具旋转纠正会降低
图像质量,使字符识别更加困难。
10.先"预览"整体版面,选定要扫描的区域,再用"放大预览"工具,选择一小
块进行放大显示到全屏幕,观察其文字的对比度,文字的深浅浓度,据情况调整"
阀值"的大小,最终要求文字清晰,不浓(文字成团),不淡(文字断笔伐),一般在"
阀值"80左右为宜,最后再扫描。
11.用工具擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,
使文字图像中除了文字没有一点多余的东西;这可以大提高识别率并减少识别
后的修改工作。
12.如果要扫描印刷质量稍微差一些的文章,比如说报纸,扫描的结果将不会
黑白分明,会出现大量的黑点,而且在字体的笔画上也会出现粘连现象,这两项可
是汉字识别的大忌,将严重影响汉字识别的正确率。为获得较好的识别结果,必
须仔细进行色调调节,反复扫描多次才能获得比较理想的结果。另外由于报纸很
薄且大部分纸质不高,导致扫描仪上盖板不能完全压住报纸(有缝隙),所以一般
情况下报纸的扫描识别效果没有杂志的效果好。解决办法是在报纸上压一至两
本16k的杂志,效果还是不错的。
四、ocr常见问题的解决
1.文字校正
文字校正应该是ocr识别中最麻烦和繁琐的工作了,要想减少工作量的话,
大家可以使用readbook作为文字校正的辅助工具。我们用到的主要功能是:自
动平滑滚屏;可以对文件进行局部编辑;具有"智能分段"功能,可以将每行都是
硬回车换行的文章,去掉回车重新排列,并且不破坏原有的段落;启动时可自动
装入上次正在阅读的文章。
2.表格识别和编辑
清华紫光ocr和尚书ocr都提供了表格识别功能,尚书ocr做得比较好,能
够对表格进行自动识别,但在识别时要与其它文字版块区分划开,才会得到整个
页面的识别。我们在用紫光ocr识别表格时,往往只能识别出表头而无表格。这
是因为紫光ocr不能对表格自动进行划分,我们需要进行手动版面分析,单独定
义出表格属性。紫光ocr的识别属性分为"横排正文"、"竖排正文"及"表格",只
要将表头单独框起来定义为"横排正文",再单独将表格框起来定义为"表格"就可
以正确识别了。
如果我们用word等编辑软件将识别后的表格文件直接打开时,表格可能会
一团糟,这是因为表格线是被作为字符处理的。解决这个问题最简单的方法是使
用wps2000,它可以将字符型的表格线直接转换成可编辑的表格。如果我们需
要在word里进行编辑,只需在wps2000里将文件另存为rtf格式就可以了。注
意:请不要使用复制粘贴,因为word是将wps2000的表格作为图片来处理。
3.段落重排
一些朋友在识别后文本的再处理时,大多将其复制粘贴到word中,利用
word强大的查找替换功能来去掉多余的硬回车。其实我们完全不需要这样麻烦,
尚书ocr、汉王ocr和紫光ocr都提供了段内去硬回车的功能。尚书、汉王使
用比较简单,只要在识别后的文本存盘时,选回车设置为软回车就行了。对于紫
光ocr则需要在识别完成后,选择文件菜单下的导出命令,将存为类型选为txt,
段内回车字符选为无。注意:一定不要直接存盘,否则不能自动去掉文章的硬回
车。
4.软件的兼容性
在购买扫描仪的时候,一般都会随机获赠一款ocr识别软件。我们也可以另
选一些适合自己的ocr识别软件,下面就介绍一下两款主流ocr软件的兼容性问
题。
(1)清华紫光ocr
清华紫光ocr专业版是紫光系列扫描仪随机附赠的ocr软件,它具有支持的
图像格式多,识别率高,支持表格识别等特点,是一款不错的ocr软件。但它只支
持紫光系列的扫描仪,如果在其它品牌的扫描仪上使用,它会显示出错信息,并拒
绝工作。
(2)尚书ocr
尚书5.0这款ocr识别软件,具有识别率高,界面简单友好的特点,特别适合
于初学者。它适用于microtek,n-tek,scanpaq,scanport系列扫描仪,该软件只
识别自己扫描的图像,很不方便。
解决方法:其实解决此类问题也很简单,我们可以使用其它图像处理软件来
进行扫描,只要扫描得到的图像格式能够被ocr软件所支持、识别就可以了。这
里介绍一款专为ocr软件设计的图像增强软件扫描小精灵,它能有效地提高输入
图像质量,它提供的全自动扫描方式、自动存盘功能,特别适合于需要大量处理
文稿的用户。根据实验,扫描小精灵的tif图像输出格式全面兼容紫光ocr
v7.532位专业版、汉王ocr5.0、尚书5.0、北信ocr(wps2000手写系统中携
带的)等。此软件大家可以到下载。
5.用ocr识别软件处理传真文件
利用计算机收发传真已经不是什么新鲜事了,有的人甚至通过一定的方法把
传真机和计算机连接起来作为扫描仪使用。利用ocr识别软件对传真文件进行
处理可以大方便我们的办公工作。虽然几乎所有的传真软件都支持将收到的传
真件存为tif图像文件,但这种tif图像文件是不能直接被ocr软件所识别的。
解决方法:根据我们的实验,2值(bitmap、黑白)、ibmpc格式、没有lzw
压缩的tif图像格式能够被大多数的ocr软件所识别,可用的ocr软件有紫光
ocrv7.532位专业版、汉王ocr5.0、北信ocr等。所以只要将得到的传真文
件转换成以上格式就行了。比如photoimpact5.0(扫描仪随机附赠的),利用其
文件菜单下的批量转换功能可以很方便的将批量文件转换为ibmpc格式,没有
lzw压缩的tif图像。其它图像处理软件如photoshop也可以。
对于尚书5.0我们还需用到尚书5号ocr软件tif文件转换器,下载地址是。
此软件能将2值(bitmap、黑白)、ibmpc格式、没有lzw压缩的tif图像转换
为尚书5.0能识别的格式。使用很简单,按"添加文件"按钮将文件加入待处理的
文件列表,按"开始"按钮开始处理,完成后的文件自动加前缀dh-。
历史上的今天:
巴雷拉巴雷拉期待和瓜尔达多的比赛2011-06-11
特别声明:
1:资料来源于互联网,版权归属原作者
2:资料内容属于网络意见,与本账号立场无关
3:如有侵权,请告知,立即删除。
本文发布于:2022-12-03 08:56:44,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/43441.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |